貝葉斯統計

貝葉斯統計是一種基於貝葉斯概率的統計學理論，以貝葉斯統計的開創人，數學家、長老會牧師托馬斯·貝葉斯命名。法國數學家皮埃爾-西蒙·拉普拉斯後來在托馬斯·貝葉斯工作的基礎上進一步發展了貝葉斯統計，並發明了拉普拉斯平滑等現代貝葉斯統計中常用的方法^[1]。

貝葉斯統計學認為概率是一種基於個人經驗、之前的相關實驗結果等先驗信息而得出的信念度（英語：Credence (statistics)）（degree of belief），沒有必要經由反覆實驗驗證。這一點也是貝葉斯學派與頻率學派的主要不同之處，因為頻率學派認為概率是經反覆的實驗後頻率應達到的極限（大數定理）^[2]^[3]。

貝葉斯統計的核心方法是基於貝葉斯定理，用取得的數據（可記為 $B$ ）對根據個人經驗等先驗信息對希望研究的命題或假設（可記為 $A$ ）先驗概率 $P(A)$ 進行修正，得到後驗概率 $P(A|B)$ ^[4]^[5]。

在過去很長一段時間，貝葉斯統計並不受學界的重視。一方面，長期流行的很多統計學方法都是基於頻率學派的，因此很長時間內統計學界都是以頻率學派占主導地位。頻率學派常常批評貝葉斯統計中的先驗概率過於主觀。另一方面，貝葉斯統計方法往往涉及複雜的計算，這在電子計算機尚不普及的時代是一個很大的問題。不過，隨計算機技術的不斷發展以及馬爾可夫鏈蒙特卡洛等新算法的出現，21世紀貝葉斯統計已在統計學中占愈發重要的地位^[3]^[6]

貝葉斯公式

假設有兩個事件，分別記為 $A$ 與 $B$ 。 $A$ 是人們希望探究的一個命題或假設（例如「丟出一枚硬幣之後正面朝上的概率是50%」），而 $B$ 則是有關的實驗證據（例如丟出20次硬幣後的每次硬幣正面朝上還是朝下的結果）^[7]：

$P(A\mid B)={\frac {P(B\mid A)P(A)}{P(B)}}$

該公式中， $P(A)$ 被稱為先驗概率，是基於經驗、先前的實驗結果等得出的一個概率。 $P(A\mid B)$ 則是根據證據 $B$ 修正後 $A$ 的概率，稱為後驗概率。貝葉斯統計學中一般需要求得最大後驗概率，即後驗概率的眾數^[3]。 $P(B\mid A)$ 被稱為似然函數，因為基於似然原則（英語：equivalent principle）（equivalent principle） $P(B\mid A)=L(A\mid B)$ ，即條件概率 $P(B\mid A)$ 等於條件B下A的似然。 $P(B)$ 一般被稱為「證據」，可由全概率定理算出，求出在所有 $A$ 的不同情況下 $A$ 、 $B$ 的聯合概率之和^[3]^[7]：

$P(B)=P(B\mid A_{1})P(A_{1})+P(B\mid A_{2})P(A_{2})+\dots +P(B\mid A_{n})P(A_{n})=\sum _{i}P(B\mid A_{i})P(A_{i})$ 。

$B$ 的概率分布一般是連續的，這往往造成 $P(B)$ 的計算涉及到複雜的積分。不過，使用變分貝葉斯方法或馬爾可夫鏈蒙特卡洛等方法可在不涉及計算 $P(B)$ 的情況下求得所需的最大後驗概率，在這種情況下可以只考慮先驗概率與似然函數對後驗概率的影響（ $\propto$ 符號代表「成正比」）：

$P(A\mid B)\propto P(B\mid A)P(A)$

貝葉斯推斷

貝葉斯統計的思想可用於貝葉斯推斷中。貝葉斯推斷，顧名思義，是指使用貝葉斯統計的思想進行統計推斷，即利用樣本推斷總體情況的過程。貝葉斯推斷與頻率學派推斷的一個最大不同是頻率學派認為總體的頻率是一定的，只是我們無法準確知道，但在樣本量足夠大時頻率會逐漸收斂於真實的概率值^[8]。因此頻率學派推斷不會為假設或者模型的參數賦予一個概率。例如頻率學派推斷中不會有「下次投硬幣正面朝上概率為1/2這種說法」，而是會認為，經過不斷大量實驗，（如果這枚硬幣是完美均勻的），那麼正面朝上的頻率會逐漸趨近於1/2。因此頻率學派推斷一般是給出統計量以及其置信區間^[9]^:1-3。貝葉斯推斷則會先基於經驗、先前的研究等先驗知識給假設賦予一個先驗概率（例如實驗者基於經驗認為的硬幣朝上的概率）或者先驗概率分布，再使用實驗得到的證據來修正這個先驗概率，得到更契合證據的後驗概率或後驗概率分布。後驗概率或後驗概率分布即貝葉斯推斷的輸出^[3]^[10]。

因為貝葉斯推斷的這一特點，貝葉斯推斷很適合用來做探索性數據分析（英語：exploratory data analysis），意即揭示數據的結構的分析過程^[11] 。

參見

貝葉斯推理

參考文獻

^ McGrayne, Sharon. The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy First. Chapman and Hall/CRC. 2012. ISBN 978-0-3001-8822-6.
^ F. Javier Rubio, Professor Karla DiazOrdaz（王超辰譯）. 贝叶斯统计入门. [2023-06-15]. （原始內容存檔於2022-08-14）.
^ ^3.0 ^3.1 ^3.2 ^3.3 ^3.4 Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. Bayesian Data Analysis Third. Chapman and Hall/CRC. 2013. ISBN 978-1-4398-4095-5.
^ McElreath, Richard. Statistical Rethinking : A Bayesian Course with Examples in R and Stan 2nd. Chapman and Hall/CRC. 2020. ISBN 978-0-367-13991-9.
^ Kruschke, John. Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan 2nd. Academic Press. 2014. ISBN 978-0-12-405888-0.
^ Fienberg, Stephen E. When Did Bayesian Inference Become "Bayesian"?. Bayesian Analysis. 2006, 1 (1): 1–40. doi:10.1214/06-BA101  .
^ ^7.0 ^7.1 Grinstead, Charles M.; Snell, J. Laurie. Introduction to probability 2nd. Providence, RI: American Mathematical Society. 2006. ISBN 978-0-8218-9414-9.
^ Lee, Se Yoon. Gibbs sampler and coordinate ascent variational inference: A set-theoretical review. Communications in Statistics - Theory and Methods. 2021, 51 (6): 1549–1568. S2CID 220935477. arXiv:2008.01006  . doi:10.1080/03610926.2021.1921214.
^ Cameron Davidson-Pilon; 辛願、歐陽婷譯. 贝叶斯方法概率编程与贝叶斯推断. 人民郵電出版社. 2016. ISBN 978-7-115-43880-5.
^ Congdon, Peter. Applied Bayesian modelling 2nd. Wiley. 2014. ISBN 978-1119951513.
^ Diaconis, Persi (2011) Theories of Data Analysis: From Magical Thinking Through Classical Statistics. John Wiley & Sons, Ltd 2:e55 doi:10.1002/9781118150702.ch1

[1] McGrayne, Sharon. The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy First. Chapman and Hall/CRC. 2012. ISBN 978-0-3001-8822-6.

[2] F. Javier Rubio, Professor Karla DiazOrdaz（王超辰譯）. 贝叶斯统计入门. [2023-06-15]. （原始內容存檔於2022-08-14）.

[bda-3] 3.0 ^3.1 ^3.2 ^3.3 ^3.4 Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. Bayesian Data Analysis Third. Chapman and Hall/CRC. 2013. ISBN 978-1-4398-4095-5.

[rethinking-4] McElreath, Richard. Statistical Rethinking : A Bayesian Course with Examples in R and Stan 2nd. Chapman and Hall/CRC. 2020. ISBN 978-0-367-13991-9.

[5] Kruschke, John. Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan 2nd. Academic Press. 2014. ISBN 978-0-12-405888-0.

[6] Fienberg, Stephen E. When Did Bayesian Inference Become "Bayesian"?. Bayesian Analysis. 2006, 1 (1): 1–40. doi:10.1214/06-BA101  .

[grinsteadsnell2006-7] 7.0 ^7.1 Grinstead, Charles M.; Snell, J. Laurie. Introduction to probability 2nd. Providence, RI: American Mathematical Society. 2006. ISBN 978-0-8218-9414-9.

[8] Lee, Se Yoon. Gibbs sampler and coordinate ascent variational inference: A set-theoretical review. Communications in Statistics - Theory and Methods. 2021, 51 (6): 1549–1568. S2CID 220935477. arXiv:2008.01006  . doi:10.1080/03610926.2021.1921214.

[9] Cameron Davidson-Pilon; 辛願、歐陽婷譯. 贝叶斯方法概率编程与贝叶斯推断. 人民郵電出版社. 2016. ISBN 978-7-115-43880-5.

[congdon2014-10] Congdon, Peter. Applied Bayesian modelling 2nd. Wiley. 2014. ISBN 978-1119951513.

[11] Diaconis, Persi (2011) Theories of Data Analysis: From Magical Thinking Through Classical Statistics. John Wiley & Sons, Ltd 2:e55 doi:10.1002/9781118150702.ch1

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]