幽灵数据

幽灵数据(英语:Ghost data[1]), 是指从数据科学、统计学角度处理我们一般看不见的数据,量子成像幽灵成像,“暗物质”或“暗能量”及其在计算机视觉领域中的新发现,甚至还包括与文物资料、经历等相关的认知数据。

量子场论的术语中,幽灵英语Ghost_(physics)(ghost)、幽灵场(ghost field)或规范幽灵(gauge ghost)是规范场论中的非物理状态。在局部场超过多个物理自由度的情况下,必须使幽灵保持理论的不变性。在数据科学、统计学、计算机等术语中,幽灵数据包括为数字幽灵[2](digital ghost)[3], 虚拟数据(如仿真数据[4]、虚拟病人[5])、缺失数据[6]、伪造数据[7]、高度稀疏数据,及其他类似数据。令人容易联想到的是缺失数据。由于缺失机制[8](可忽略或不可忽略、随机缺失或非随机缺失等)的不同,处理方法也不尽相同。除了缺失数据,幽灵数据还包括其他看不见的数据。这些数据可能是因为部分人员能够感知而其他人不能感知的数据[1]

概述

幽灵数据由John SallDennis Lin教授率先在系列邀请报告[9][10][11][12]中阐述。幽灵数据广泛存在于各种历史记录的数据中,包括记录的日记、照片、录音、视频,甚至存储在化石和文物等[13]中的记忆信息。尽管这些文物仅记录部分表面特征,但是一部分人能感知其相关的更多的信息,而其他人不能感知到那些信息。能够感知更多信息的人就能构建部分并近似复制其整个生活过程。例如,在文物虚拟修复[13]方面,数据科学家与文物专家的合作,能够能更多地存储其记录,并还原它们所携带的记忆信息。随着技术的进步,将能为原始生活提供完美复制品。

数据类型

幽灵数据[1]常包括幽灵成像、虚拟数据、缺失数据、伪造数据、仿真数据、“暗物质”、高度稀疏数据,及其他类似数据。令人容易联想到的是缺失数据。由于缺失机制的不同,处理方法也不尽相同。数据缺失可以分为随机缺失(missing at random, MAR)和非随机缺失(Missing not at random, MNAR)[6]。缺失数据处理方法[8]主要包括使用样本抽样推断、贝叶斯推断和似然法推断等。对于实验设计,随机完全区块设计[14]也会遇到缺失问题。不完整均衡区块设计[14]也可被当成随机完全区块设计带有缺失数据进行统计分析。


相关条目

参考文献

  1. ^ 1.0 1.1 1.2 [1][失效链接])
  2. ^ (德)尤夫娜·霍夫施泰特. 陈巍 , 编. 大数据之眼:无所不知的数字幽灵( SIE WISSEN ALLES). 浙江文艺. 2018. ISBN 9787533950880. 
  3. ^ Eric Steinhart. Survival as a Digital Ghost. Minds & Machines: 261–271. [2020-08-10]. (原始内容存档于2020-10-08). 
  4. ^ Kaitai Fang; Dennis J.K. Lin. Rao CR, Khattree R , 编. Uniform experimental design and its applications in industry. North Holland, Amsterdam. 2003. 
  5. ^ 徐曼; 沈江, 余海燕. 大数据医疗:认知科学时代的医疗智能. 北京: 机械工业出版社. 2017. 
  6. ^ 6.0 6.1 余海燕; 陈京京 邱航 王永 王若凡. 嵌套删失数据期望最大化的高斯混合聚类算法. 自动化学报. 2019-08-12.  [失效链接]
  7. ^ Hodges, Sarah; Garnett, Emma. The ghost in the data: Evidence gaps and the problem of fake drugs in global health research. Global Public Health. 2020: 1103–1118 [2020-08-10]. (原始内容存档于2022-04-13). 
  8. ^ 8.0 8.1 Roderick JA Little; Donald B Rubin. Statistical analysis with missing data. John Wiley & Sons. 2019 [2020-08-11]. (原始内容存档于2020-09-16). 
  9. ^ uwaterloo.ca. Statistics and Actuarial ScienceEvents2018November. https://uwaterloo.ca/. [2018-11-08]. (原始内容存档于2020-11-24). 
  10. ^ Dennis Lin. Ghost Data. https://math.asu.edu/. [2019-11-07]. [失效链接]
  11. ^ 余海燕. Dennis K.J. Lin教授后大数据Ghost Data研究的学术报告. 重庆邮电大学经济管理学院. [2018-07-17]. (原始内容存档于2019年7月23日). 
  12. ^ bc.njupt.edu.cn/. “Ghost Data(幽灵数据)”的讲座圆满举行. 南京邮电大学管理学院. [2019-05-28]. 
  13. ^ 13.0 13.1 Grau, Oliver. Museum and archive on the move: changing cultural institutions in the digital era.. Walter de Gruyter GmbH & Co KG. 2017 [2020-08-10]. (原始内容存档于2016-01-05). 
  14. ^ 14.0 14.1 George E. P. Box, J. Stuart Hunter, William G. Hunter. Statistics for Experimenters: Design, Innovation, and Discovery. wiley. 2005 [2020-08-11]. ISBN 978-0-471-71813-0. (原始内容存档于2019-04-13).