交叉熵

在資訊理論中，基於相同事件測度的兩個概率分布 $p$ 和 $q$ 的交叉熵（英語：Cross entropy）是指，當基於一個「非自然」（相對於「真實」分布 $p$ 而言）的概率分布 $q$ 進行編碼時，在事件集合中唯一標識一個事件所需要的平均比特數（bit）。

給定兩個概率分布 $p$ 和 $q$ ， $p$ 相對於 $q$ 的交叉熵定義為：

H(p,q)=\operatorname {E} _{p}[-\log q]=H(p)+D_{\mathrm {KL} }(p\|q),\!

其中 $H(p)$ 是 $p$ 的熵， $D_{\mathrm {KL} }(p\|q)$ 是從 $p$ 與 $q$ 的KL散度(也被稱為p相對於q的相對熵)。

對於離散分布 $p$ 和 $q$ ，這意味著：

H(p,q)=-\sum _{x}p(x)\,\log q(x).\!

對於連續分布也是類似的。我們假設 $p$ 和 $q$ 在測度 $r$ 上是絕對連續的(通常 $r$ 是Lebesgue measure on a Borel σ-algebra)。設 $P$ 和 $Q$ 分別為 $p$ 和 $q$ 在測度 $r$ 上概率密度函數。則

-\int _{X}P(x)\,\log Q(x)\,dr(x)=\operatorname {E} _{p}[-\log Q].\!

源起

在資訊理論中, 以直接可解編碼模式通過值 $x_{i}$ 編碼一個信息片段，使其能在所有可能的 $X$ 集合中唯一標識該信息片段，Kraft–McMillan theorem確保這一過程可以被看作一種 $X$ 上的隱式概率分布 $q(x_{i})=2^{-l_{i}}$ ，從而使得 $l_{i}$ 是 $x_{i}$ 的編碼位長度。因此, 交叉熵可以看作每個信息片段在錯誤分布 $Q$ 下的期望編碼位長度，而信息實際分布為 $P$ 。這就是期望 ${E}_{p}$ 是基於 $P$ 而不是 $Q$ 的原因。

H(p,q)=\operatorname {E} _{p}[l_{i}]=\operatorname {E} _{p}\left[\log {\frac {1}{q(x_{i})}}\right]

H(p,q)=\sum _{x_{i}}p(x_{i})\,\log {\frac {1}{q(x_{i})}}\!

H(p,q)=-\sum _{x}p(x)\,\log q(x).\!

估計

在大多數情況下，我們需要在不知道分布 $p$ 的情況下計算其交叉熵。例如在語言模型中, 我們基於訓練集 $T$ 創建了一個語言模型, 而在測試集合上通過其交叉熵來評估該模型的準確率。 $p$ 是語料中詞彙的真實分布，而 $q$ 是我們獲得的語言模型預測的詞彙分布。由於真實分布是未知的，我們不能直接計算交叉熵。在這種情況下，我們可以通過下式來估計交叉熵:

H(T,q)=-\sum _{i=1}^{N}{\frac {1}{N}}\log _{2}q(x_{i})

$N$ 是測試集大小， $q(x)$ 是在訓練集上估計的事件 $x$ 發生的概率。我們假設訓練集是從 $p(x)$ 的真實採樣，則此方法獲得的是真實交叉熵的蒙特卡洛估計。

參考資料

de Boer, Pieter-Tjerk; Kroese, Dirk P.; Mannor, Shie; Rubinstein, Reuven Y. A Tutorial on the Cross-Entropy Method (PDF) (pdf) 134 (1). February 2005: 19–67 [2018-02-02]. ISSN 1572-9338. doi:10.1007/s10479-005-5724-z. （原始內容存檔 (PDF)於2016-10-26）. |journal=被忽略 (幫助)