資訊理論中,基於相同事件測度的兩個概率分布交叉熵(英語:Cross entropy)是指,當基於一個「非自然」(相對於「真實」分布而言)的概率分布進行編碼時,在事件集合中唯一標識一個事件所需要的平均比特數(bit)。

給定兩個概率分布相對於的交叉熵定義為:

其中是從KL散度(也被稱為p相對於q相對熵)。

對於離散分布,這意味著:

對於連續分布也是類似的。我們假設測度 上是絕對連續的(通常 Lebesgue measure on a Borel σ-algebra)。設分別為測度 上概率密度函數。則

源起

資訊理論中, 以直接可解編碼模式通過值 編碼一個信息片段,使其能在所有可能的 集合中唯一標識該信息片段,Kraft–McMillan theorem確保這一過程可以被看作一種 上的隱式概率分布 ,從而使得  的編碼位長度。 因此, 交叉熵可以看作每個信息片段在錯誤分布 下的期望編碼位長度,而信息實際分布為 。這就是期望 是基於 而不是 的原因。

 
 
 

估計

在大多數情況下,我們需要在不知道分布 的情況下計算其交叉熵。例如在語言模型中, 我們基於訓練集 創建了一個語言模型, 而在測試集合上通過其交叉熵來評估該模型的準確率。 是語料中詞彙的真實分布,而 是我們獲得的語言模型預測的詞彙分布。由於真實分布是未知的,我們不能直接計算交叉熵。在這種情況下,我們可以通過下式來估計交叉熵:

 

 是測試集大小, 是在訓練集上估計的事件 發生的概率。我們假設訓練集是從 的真實採樣,則此方法獲得的是真實交叉熵的蒙特卡洛估計。

參考資料