辛普森悖论
数据统计悖论
此条目可参照英语维基百科相应条目来扩充。 (2020年4月25日) |
辛普森悖论(英语:Simpson's paradox),是概率和统计中的一种现象,其中趋势出现在几组数据中,但当这些组被合并后趋势消失或反转。 这个结果在社会科学和医学科学统计中经常遇到[1][2][3], 当频率数据被不恰当地给出因果解释时尤其成问题[4]。当干扰变量和因果关系在统计建模中得到适当处理时,这个悖论就可以得到解决[4][5]。 辛普森悖论已被用来说明统计误用可能产生的误导性结果[6][7]。
该现象于20世纪初就有人讨论,但一直到1951年,爱德华·H·辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。此悖论的最终原因和选择偏差、幸存者偏差、以及柏克森悖论一样,是源自对撞因子(存疑!应为混淆变量(confounder))。
举例
一所美国高校的两个学院,分别是法学院和商学院。新学期招生,人们怀疑这两个学院有性别歧视。现作如下统计:
法学院
性别 | 录取 | 拒收 | 总数 | 录取比例 |
---|---|---|---|---|
男生 | 8 | 45 | 53 | 15.1% |
女生 | 51 | 101 | 152 | 33.6% |
合计 | 59 | 146 | 205 |
商学院
性别 | 录取 | 拒收 | 总数 | 录取比例 |
---|---|---|---|---|
男生 | 201 | 50 | 251 | 80.1% |
女生 | 92 | 9 | 101 | 91.1% |
合计 | 293 | 59 | 352 |
根据上面两个表格来看,女生在两个学院都被优先录取,即女生的录取比率较高。现在将两学院的数据汇总:
性别 | 录取 | 拒收 | 总数 | 录取比例 |
---|---|---|---|---|
男生 | 209 | 95 | 304 | 68.8% |
女生 | 143 | 110 | 253 | 56.5% |
合计 | 352 | 205 | 557 |
在总评中,女生的录取比率反而比男生低。
借助一幅向量图可以更好的了解情况(右图)
这个例子说明,简单的将分组数据相加汇总,是不能反映真实情况的。
就上述例子说,导致辛普森悖论有两个前提。
- 两个分组的录取率相差很大,就是说法学院录取率很低,而商学院却很高。而同时两种性别的申请者分布比重相反。女性申请者的大部分分布在法学院,相反,男性申请者大部分分布于商学院。结果在数量上来说,拒收率高的法学院拒收了很多的女生,男生虽然有更高的拒收率,但被拒收的数量却相对不算多。而录取率很高的商学院录取了很多男生,使得最后汇总的时候,男生在数量上反而占优。
- 有潜在因素影响着录取情况。就是说,性别并非是录取率高低的唯一因素,甚至可能是毫无影响的。至于在学院中出现的比率差,可能是随机事件。又或者是其他因素作用,比如入学成绩,却刚好出现这种录取比例,使人误认为这是由性别差异而造成的。
为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时,我们必需清楚了解情况,以综合考虑是否存在造成此悖论的潜在因素。
相关条目
参考文献
Skript zur Statistik in der Naturwissenschaften(Gerhard Osius, Universität Bremen)
- ^ Clifford H. Wagner. Simpson's Paradox in Real Life. The American Statistician. February 1982, 36 (1): 46–48. JSTOR 2684093. doi:10.2307/2684093.
- ^ Holt, G. B. (2016). Potential Simpson's paradox in multicenter study of intraperitoneal chemotherapy for ovarian cancer. (页面存档备份,存于互联网档案馆) Journal of Clinical Oncology, 34(9), 1016–1016.
- ^ Franks, Alexander; Airoldi, Edoardo; Slavov, Nikolai. Post-transcriptional regulation across human tissues. PLOS Computational Biology. 2017, 13 (5): e1005535. Bibcode:2017PLSCB..13E5535F. ISSN 1553-7358. PMC 5440056 . PMID 28481885. arXiv:1506.00219 . doi:10.1371/journal.pcbi.1005535.
- ^ 4.0 4.1 Judea Pearl. Causality: Models, Reasoning, and Inference, Cambridge University Press (2000, 2nd edition 2009). ISBN 0-521-77362-8.
- ^ Kock, N., & Gaskins, L. (2016). Simpson's paradox, moderation and the emergence of quadratic relationships in path models: An information systems illustration. (页面存档备份,存于互联网档案馆) International Journal of Applied Nonlinear Science, 2(3), 200–234.
- ^ Robert L. Wardrop (February 1995). "Simpson's Paradox and the Hot Hand in Basketball". The American Statistician, 49 (1): pp. 24–28.
- ^ Alan Agresti (2002). "Categorical Data Analysis" (Second edition). John Wiley and Sons ISBN 0-471-36093-7