在統計學中,最大概似估計(英語:maximum likelihood estimation,簡作MLE),也稱極大概似估計,是用來估計一個機率模型的母數的一種方法。
預備知識
最大概似估計的原理
給定一個機率分布 ,已知其機率密度函數(連續分布)或機率質量函數(離散分布)為 ,以及一個分布母數 ,我們可以從這個分布中抽出一個具有 個值的採樣 ,利用 計算出其概似函數:
-
若 是離散分布, 即是在母數為 時觀測到這一採樣的機率;若其是連續分布, 則為 聯合分布的機率密度函數在觀測值處的取值。一旦我們獲得 ,我們就能求得一個關於 的估計。最大概似估計會尋找關於 的最可能的值(即,在所有可能的 取值中,尋找一個值使這個採樣的「可能性」最大化)。從數學上來說,我們可以在 的所有可能取值中尋找一個值使得概似函數取到最大值。這個使可能性最大的 值即稱為 的最大概似估計。由定義,最大概似估計是樣本的函數。
注意
- 這裡的概似函數是指 不變時,關於 的一個函數。
- 最大概似估計不一定存在,也不一定唯一。
推導
最大概似估計可以從相對熵推導而來。相對熵衡量了使用一個給定分布 來近似另一個分布 時的資訊損失,對於離散型隨機變數,可以用以下公式:
其中, 是真實分布, 是近似分布。在最大概似估計的情景下,假設分布擁有一系列母數 ,我們希望通過樣本得到母數的估計值 。我們可以利用相對熵來評判估計的好壞:
根據期望值的定義,我們可以將上式改寫為:
KL值越大,母數估計越壞,因此,需要通過改變估計母數 的值來獲得最小的值,所對應的母數極為最佳估計母數。即:
假設有 個樣本,根據大數定理,可以進行替換:
即,可以通過下式評估:
對於一個已知的分布,其母數 是確定的。因此, 為常數。因此,我們可以通過最小化KL值獲得最佳估計母數:
因此,要得到最佳母數估計值,只需要最大化 ,這就是最大概似函數。對於連續型隨機變數,有相同的結論。
例子
離散分布,離散有限母數空間
考慮一個拋硬幣的例子。假設這個硬幣正面跟反面輕重不同。我們把這個硬幣拋80次(即,我們獲取一個採樣 並把正面的次數記下來,正面記為H,反面記為T)。並把拋出一個正面的機率記為 ,拋出一個反面的機率記為 (因此,這裡的 即相當於上方的 )。假設我們拋出了49個正面,31個反面,即49次H,31次T。假設這個硬幣是我們從一個裝了三個硬幣的盒子裡頭取出的。這三個硬幣拋出正面的機率分別為 , , ,這些硬幣沒有標記,所以我們無法知道哪個是哪個。使用最大概似估計,基於二項分布中的機率質量函數公式,通過這些試驗數據(即採樣數據),我們可以計算出哪個硬幣的可能性最大。這個概似函數取以下三個值中的一個:
-
我們可以看到當 時,概似函數取得最大值。
顯然地,這硬幣的公平性和那種拋出後正面的機率是2/3的硬幣是最接近的。這就是 的最大概似估計。
離散分布,連續母數空間
現在假設例子1中的盒子中有無數個硬幣,對於 中的任何一個 , 都有一個拋出正面機率為 的硬幣對應,我們來求其概似函數的最大值:
-
其中 .
我們可以使用微分法來求極值。方程式兩邊同時對 取微分,並使其為零。
-
其解為 , ,以及 .使可能性最大的解顯然是 (因為 和 這兩個解會使可能性為零)。因此我們說最大概似估計值為 .
這個結果很容易一般化。只需要用一個字母 代替49用以表達伯努利試驗中的被觀察數據(即樣本)的「成功」次數,用另一個字母 代表伯努利試驗的次數即可。使用完全同樣的方法即可以得到最大概似估計值:
-
對於任何成功次數為 ,試驗總數為 的伯努利試驗。
連續分布,連續母數空間
最常見的連續機率分布是常態分布,其機率密度函數如下:
-
現在有 個常態隨機變數的採樣點,要求的是一個這樣的常態分布,這些採樣點分布到這個常態分布可能性最大(也就是機率密度積最大,每個點更靠近中心點),其 個常態隨機變數的採樣的對應密度函數(假設其獨立並服從同一分布)為:
-
也可以寫為:
- ,
這個分布有兩個母數: .有人可能會擔心兩個母數與上方的討論的例子不同,上方的例子都只是在一個母數上對可能性進行最大化。實際上,在兩個母數上的求最大值的方法也差不多:只需要分別把可能性 在兩個母數上最大化即可。當然這比一個母數麻煩一些,但是一點也不複雜。使用上方例子同樣的符號,我們有 .
最大化一個概似函數同最大化它的自然對數是等價的。因為自然對數log是一個連續且在概似函數的值域內嚴格遞增的上凹函數。[注意:可能性函數(概似函數)的自然對數跟資訊熵以及費雪訊息聯繫緊密。]求對數通常能夠一定程度上簡化運算,比如在這個例子中可以看到:
-
這個方程式的解是 .這的確是這個函數的最大值,因為它是 裡頭惟一的一階導數等於零的點並且二階導數嚴格小於零。
同理,我們對 求導,並使其為零。
-
這個方程式的解是 .
因此,其關於 的最大概似估計為:
- .
性質
歷史
參見
- 關於拉奧-布萊克韋爾定理(Rao-Blackwell theorem)的文章中討論到如何利用Rao-Blackwellisation過程尋找最佳不偏估計(即使均方差最小)的方法。而最大概似估計通常是一個好的起點。
- 讀者可能會對最大概似估計(如果存在)總是一個關於母數的充分統計量(sufficient statistic)的函數感興趣。
- 最大概似估計跟廣義動差估計(generalized method of moments)有關。
參考文獻
外部連結