交叉熵
此條目需要精通或熟悉相關主題的編者參與及協助編輯。 (2018年2月2日) |
在資訊理論中,基於相同事件測度的兩個概率分布和的交叉熵(英語:Cross entropy)是指,當基於一個「非自然」(相對於「真實」分布而言)的概率分布進行編碼時,在事件集合中唯一標識一個事件所需要的平均比特數(bit)。
給定兩個概率分布和,相對於的交叉熵定義為:
其中是的熵,是從與的KL散度(也被稱為p相對於q的相對熵)。
對於離散分布和,這意味著:
對於連續分布也是類似的。我們假設和在測度 上是絕對連續的(通常 是Lebesgue measure on a Borel σ-algebra)。設和分別為和在測度 上概率密度函數。則
源起
在資訊理論中, 以直接可解編碼模式通過值 編碼一個信息片段,使其能在所有可能的 集合中唯一標識該信息片段,Kraft–McMillan theorem確保這一過程可以被看作一種 上的隱式概率分布 ,從而使得 是 的編碼位長度。 因此, 交叉熵可以看作每個信息片段在錯誤分布 下的期望編碼位長度,而信息實際分布為 。這就是期望 是基於 而不是 的原因。
估計
在大多數情況下,我們需要在不知道分布 的情況下計算其交叉熵。例如在語言模型中, 我們基於訓練集 創建了一個語言模型, 而在測試集合上通過其交叉熵來評估該模型的準確率。 是語料中詞彙的真實分布,而 是我們獲得的語言模型預測的詞彙分布。由於真實分布是未知的,我們不能直接計算交叉熵。在這種情況下,我們可以通過下式來估計交叉熵:
是測試集大小, 是在訓練集上估計的事件 發生的概率。我們假設訓練集是從 的真實採樣,則此方法獲得的是真實交叉熵的蒙特卡洛估計。
參考資料
- de Boer, Pieter-Tjerk; Kroese, Dirk P.; Mannor, Shie; Rubinstein, Reuven Y. A Tutorial on the Cross-Entropy Method (PDF) (pdf) 134 (1). February 2005: 19–67 [2018-02-02]. ISSN 1572-9338. doi:10.1007/s10479-005-5724-z. (原始內容存檔 (PDF)於2016-10-26).
|journal=
被忽略 (幫助)