顯著性差異

統計學名詞

統計學假設檢定[1][2]顯著性差異(或統計學意義,英語:statistical significance)是對數據差異性的評價,當某次實驗的結果在虛無假設下不大可能發生時,就認為該結果具有顯著性差異。更準確而言,譬如某項研究設定了一個數值α(顯著水平),表示虛無假設本來正確但卻被拒絕的出錯概率[3]並非虛無假設為真的概率、對立假設為假的概率、實驗再現失敗率[4]),然後用p值表示虛無假設條件為真時得到某結果或更極端結果的概率[5]。當pα時,就可以認為結果具有統計學意義,或數據之間具有了顯著性差異。[6][7][8][9][10][11][12]顯著水平應當在開始數據收集前就設定,通常習慣設定為5%[13]或更低,因研究的具體學科領域而異。[14]

雙尾檢定英語one- and two-tailed tests中,顯著水平α = 0.05下的拒絕域分處在抽樣分佈兩端的尾部,共占曲線下方面積的5%。

在任何涉及到從總體抽取樣本實驗觀察性研究中,觀察到的結果都有可能只不過是由抽樣誤差英語sampling error產生的。[15][16]但是,如果一個觀察結果的p值小於(或等於)顯著水平α,研究者就可以得出「該結果能反映總體的特徵」的結論[1],並拒絕虛無假設[17]

顯著性差異的原因可能是:

  • 參與比對的數據是來自不同實驗對象,如比-西一般能力測驗中,大學學歷被試組的成績與小學學歷被試組之間,會存在顯著性差異;
  • 也可能是因為實驗處理對實驗對象造成了改變,因而前測、後測的數據會有顯著性差異。例如,記憶術研究發現,被試者學習某記憶法前的成績,和學習記憶法後的記憶成績會有顯著性差異,則這一差異很可能來自於這種記憶法對被試記憶能力的改變。

歷史

顯著性差異的提出可追溯到18世紀,約翰·阿巴思諾特英語John Arbuthnot皮埃爾-西蒙·拉普拉斯作出了男女出生概率均等的虛無假設,然後計算了人類出生時性別比p值[18][19][20][21][22][23][24]

1925年,羅納德·費雪在《研究工作者的統計方法英語Statistical Methods for Research Workers》一書中提出了統計假設檢定的思想,稱之為「顯著性檢定」(tests of significance)。[25][26][27]費雪建議將1/20(=0.05)的概率作為拒絕虛無假設的一個截斷值。[28]在1933年的一篇論文中,耶日·內曼埃貢·皮爾森把這個截斷值稱為「顯著水平」,並賦予它符號α。他們建議,α值應當在收集任何數據收集之前提前設定。[28][29]

費雪最初將顯著水平定為0.05,但他並不打算將這一截斷值定死。在他1956年出版的《統計方法與科學推斷》一書中,他建議根據具體情況確定顯著水平。[28]

相關概念

顯著水平αp值的閾值,當pα時就拒絕虛無假設(即使虛無假設仍有可能是正確的)。這意味着α也是在虛無假設正確的情況下錯誤地將其否定的概率[3],稱為偽陽性第一型錯誤、棄真錯誤、α錯誤。

而有些研究者偏好使用置信水平γ = 1 − α。它是虛無假設成立時不拒絕虛無假設的概率。[30][31]置信水平和置信區間是Neyman於1937年提出的。[32]

顯著水平

顯著水平significance level,符號:α)常用於假設檢定中檢定假設和實驗結果是否一致,它代表在虛無假設(記作 )為真時,錯誤地拒絕 的概率,即發生第一型錯誤(棄真錯誤、α錯誤)的概率。

比如,我們從兩個總體中分別抽取了兩組樣本數據A和B,這兩組數據在顯著水平α = 0.05下具備顯著性差異。這是說,兩組數據所代表的總體具備顯著性差異的可能性為95%;但它們代表的總體仍有5%的可能性是沒有顯著性差異的,這5%是由於抽樣誤差英語sampling error造成的。也可表述為:

  • 如果拒絕「兩組數據一致(二者不具備顯著性差異)」的虛無假設(接受「兩組數據不一致」的對立假設),此時有5%的可能性犯第一型錯誤
  • 如果A=兩組數據不具備顯著差異;B=實際數據具有顯著差異,則P(A|B) = 0.05,即統計100次,預期是B情況,但可能出現5次的A情況。

假設檢定所測得之數據之間具有顯著性差異,實驗的虛無假設就可被推翻,也就是拒絕 ,接受對立假設(alternative hypothesis,記作  );反之,若數據之間不具備顯著性差異,則拒絕對立假設,不拒絕虛無假設。通常情況下,實驗結果需要證明達到顯著水平α = 0.050.01,才可以說數據之間具備了顯著性差異,否則就如上所述,容易作出錯誤的推論。在作結論時,應確實描述方向性(例如顯著大於或顯著小於)。

數學表述為:引入p值作為檢定樣本(test statistic)觀察值的最低顯著水平。在α = 0.01α = 0.05的條件下,若虛無假設成立的概率p)小於α,則表示虛無假設成立的情況下得到這種觀測結果的概率,比1%或5%還低,在該顯著水平下,我們可拒絕該虛無假設。

  • P(X=x)<α=0.05為「顯著(significant)」,統計分析軟件SPSS中以*標記;
  • P(X=x)<α=0.01為「極顯著(extremely significant)」,通常以**標記。

局限性

研究人員常常只關注他們的結果是否具有統計學意義,但其報告的結果可能並沒有實質性[33],或者研究結果無法重現英語Reproducibility[34][35]。統計學意義與實際意義之間也不能等同,有統計學意義的研究未必就有實際意義。[36][37]

效應值

效應值是衡量一項研究的實際意義。[36]統計上顯著的結果可能效應量很低。為了衡量結果的研究意義,研究人員最好同時給出效應值和p值。效應量量化了效應的強度,例如以標準差為單位的兩個平均值之間的距離(Cohen's d)、兩個變量之間的相關係數其平方,以及其他度量。[38]

再現性

統計上顯著的結果未必能夠輕易重現英語Reproducibility[35]特別是一些有顯著性差異的結果實際上是假陽性。重現結果每失敗一次,都意味着研究結果實際上為假陽性的可能性增加。[39]

參見

參考文獻

  1. ^ 1.0 1.1 Sirkin, R. Mark. Two-sample t tests. Statistics for the Social Sciences 3rd. Thousand Oaks, CA: SAGE Publications, Inc. 2005: 271–316. ISBN 978-1-412-90546-6. 
  2. ^ Borror, Connie M. Statistical decision making. The Certified Quality Engineer Handbook 3rd. Milwaukee, WI: ASQ Quality Press. 2009: 418–472. ISBN 978-0-873-89745-7. 
  3. ^ 3.0 3.1 Dalgaard, Peter. Power and the computation of sample size. Introductory Statistics with R. Statistics and Computing. New York: Springer. 2008: 155–56. ISBN 978-0-387-79053-4. doi:10.1007/978-0-387-79054-1_9. 
  4. ^ 平克, 史蒂芬. 理性. : 282. 
  5. ^ Statistical Hypothesis Testing. www.dartmouth.edu. [2019-11-11]. (原始內容存檔於2020-08-02). 
  6. ^ Johnson, Valen E. Revised standards for statistical evidence. Proceedings of the National Academy of Sciences. October 9, 2013, 110 (48): 19313–19317. Bibcode:2013PNAS..11019313J. PMC 3845140 . PMID 24218581. doi:10.1073/pnas.1313476110 . 
  7. ^ Redmond, Carol; Colton, Theodore. Clinical significance versus statistical significance. Biostatistics in Clinical Trials. Wiley Reference Series in Biostatistics 3rd. West Sussex, United Kingdom: John Wiley & Sons Ltd. 2001: 35–36. ISBN 978-0-471-82211-0. 
  8. ^ Cumming, Geoff. Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. New York, USA: Routledge. 2012: 27–28. 
  9. ^ Krzywinski, Martin; Altman, Naomi. Points of significance: Significance, P values and t-tests. Nature Methods. 30 October 2013, 10 (11): 1041–1042. PMID 24344377. doi:10.1038/nmeth.2698 . 
  10. ^ Sham, Pak C.; Purcell, Shaun M. Statistical power and significance testing in large-scale genetic studies. Nature Reviews Genetics. 17 April 2014, 15 (5): 335–346. PMID 24739678. S2CID 10961123. doi:10.1038/nrg3706. 
  11. ^ Altman, Douglas G. Practical Statistics for Medical Research . New York, USA: Chapman & Hall/CRC. 1999: 167. ISBN 978-0412276309. 
  12. ^ Devore, Jay L. Probability and Statistics for Engineering and the Sciences 8th. Boston, MA: Cengage Learning. 2011: 300–344. ISBN 978-0-538-73352-6. 
  13. ^ Craparo, Robert M. Significance level. Salkind, Neil J. (編). Encyclopedia of Measurement and Statistics 3. Thousand Oaks, CA: SAGE Publications: 889–891. 2007. ISBN 978-1-412-91611-0. 
  14. ^ Sproull, Natalie L. Hypothesis testing. Handbook of Research Methods: A Guide for Practitioners and Students in the Social Science 2nd. Lanham, MD: Scarecrow Press, Inc. 2002: 49–64. ISBN 978-0-810-84486-5. 
  15. ^ Babbie, Earl R. The logic of sampling. The Practice of Social Research 13th. Belmont, CA: Cengage Learning. 2013: 185–226. ISBN 978-1-133-04979-1. 
  16. ^ Faherty, Vincent. Probability and statistical significance. Compassionate Statistics: Applied Quantitative Analysis for Social Services (With exercises and instructions in SPSS) 1st. Thousand Oaks, CA: SAGE Publications, Inc. 2008: 127–138. ISBN 978-1-412-93982-9. 
  17. ^ McKillup, Steve. Probability helps you make a decision about your results . Statistics Explained: An Introductory Guide for Life Scientists 1st. Cambridge, United Kingdom: Cambridge University Press. 2006: 44–56. ISBN 978-0-521-54316-3. 
  18. ^ Brian, Éric; Jaisson, Marie. Physico-Theology and Mathematics (1710–1794). The Descent of Human Sex Ratio at Birth. Springer Science & Business Media. 2007: 1–25. ISBN 978-1-4020-6036-6. 
  19. ^ John Arbuthnot. An argument for Divine Providence, taken from the constant regularity observed in the births of both sexes (PDF). Philosophical Transactions of the Royal Society of London. 1710, 27 (325–336): 186–190 [2022-06-19]. doi:10.1098/rstl.1710.0011 . (原始內容 (PDF)存檔於2021-06-03). 
  20. ^ Conover, W.J., Chapter 3.4: The Sign Test, Practical Nonparametric Statistics Third, Wiley: 157–176, 1999, ISBN 978-0-471-16068-7 
  21. ^ Sprent, P., Applied Nonparametric Statistical Methods Second, Chapman & Hall, 1989, ISBN 978-0-412-44980-2 
  22. ^ Stigler, Stephen M. The History of Statistics: The Measurement of Uncertainty Before 1900. Harvard University Press. 1986: 225–226. ISBN 978-0-67440341-3. 
  23. ^ Bellhouse, P., John Arbuthnot, in Statisticians of the Centuries by C.C. Heyde and E. Seneta, Springer: 39–42, 2001, ISBN 978-0-387-95329-8 
  24. ^ Hald, Anders, Chapter 4. Chance or Design: Tests of Significance, A History of Mathematical Statistics from 1750 to 1930, Wiley: 65, 1998 
  25. ^ Cumming, Geoff. From null hypothesis significance to testing effect sizes. Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. Multivariate Applications Series. East Sussex, United Kingdom: Routledge. 2011: 21–52. ISBN 978-0-415-87968-2. 
  26. ^ Fisher, Ronald A. Statistical Methods for Research Workers. Edinburgh, UK: Oliver and Boyd. 1925: 43. ISBN 978-0-050-02170-5. 
  27. ^ Poletiek, Fenna H. Formal theories of testing. Hypothesis-testing Behaviour. Essays in Cognitive Psychology 1st. East Sussex, United Kingdom: Psychology Press. 2001: 29–48. ISBN 978-1-841-69159-6. 
  28. ^ 28.0 28.1 28.2 Quinn, Geoffrey R.; Keough, Michael J. Experimental Design and Data Analysis for Biologists 1st. Cambridge, UK: Cambridge University Press. 2002: 46–69. ISBN 978-0-521-00976-8. 
  29. ^ Neyman, J.; Pearson, E.S. The testing of statistical hypotheses in relation to probabilities a priori. Mathematical Proceedings of the Cambridge Philosophical Society. 1933, 29 (4): 492–510. Bibcode:1933PCPS...29..492N. doi:10.1017/S030500410001152X. 
  30. ^ "Conclusions about statistical significance are possible with the help of the confidence interval. If the confidence interval does not include the value of zero effect, it can be assumed that there is a statistically significant result." Prel, Jean-Baptist du; Hommel, Gerhard; Röhrig, Bernd; Blettner, Maria. Confidence Interval or P-Value?. Deutsches Ärzteblatt Online. 2009, 106 (19): 335–9. PMC 2689604 . PMID 19547734. doi:10.3238/arztebl.2009.0335. 
  31. ^ StatNews #73: Overlapping Confidence Intervals and Statistical Significance (PDF). [2022-06-19]. (原始內容 (PDF)存檔於2020-06-21). 
  32. ^ Neyman, J. Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability. Philosophical Transactions of the Royal Society A英語Philosophical Transactions of the Royal Society A. 1937, 236 (767): 333–380. Bibcode:1937RSPTA.236..333N. JSTOR 91337. doi:10.1098/rsta.1937.0005 . 
  33. ^ Carver, Ronald P. The Case Against Statistical Significance Testing. Harvard Educational Review. 1978, 48 (3): 378–399. S2CID 16355113. doi:10.17763/haer.48.3.t490261645281841. 
  34. ^ Ioannidis, John P. A. Why most published research findings are false. PLOS Medicine. 2005, 2 (8): e124. PMC 1182327 . PMID 16060722. doi:10.1371/journal.pmed.0020124. 
  35. ^ 35.0 35.1 Amrhein, Valentin; Korner-Nievergelt, Fränzi; Roth, Tobias. The earth is flat (p > 0.05): significance thresholds and the crisis of unreplicable research. PeerJ. 2017, 5: e3544. PMC 5502092 . PMID 28698825. doi:10.7717/peerj.3544. 
  36. ^ 36.0 36.1 Hojat, Mohammadreza; Xu, Gang. A Visitor's Guide to Effect Sizes. Advances in Health Sciences Education. 2004, 9 (3): 241–9. PMID 15316274. S2CID 8045624. doi:10.1023/B:AHSE.0000038173.00909.f6. 
  37. ^ Hooper, Peter. What is P-value? (PDF). University of Alberta, Department of Mathematical and Statistical Sciences. [November 10, 2019]. (原始內容 (PDF)存檔於2020-03-31). 
  38. ^ Pedhazur, Elazar J.; Schmelkin, Liora P. Measurement, Design, and Analysis: An Integrated Approach Student. New York, NY: Psychology Press. 1991: 180–210. ISBN 978-0-805-81063-9. 
  39. ^ Stahel, Werner. Statistical Issue in Reproducibility. Principles, Problems, Practices, and Prospects Reproducibility: Principles, Problems, Practices, and Prospects. 2016: 87–114. ISBN 9781118864975. doi:10.1002/9781118865064.ch5.