霍夫丁不等式

在概率論中，霍夫丁不等式（英語：Hoeffding's inequality）適用於有界的隨機變量，提供了有界獨立隨機變量之和偏離其期望值超過一定數量的概率的上限，即 $\max \mathbb {P} ({\overline {X}}-\mathbb {E} [{\overline {X}}]\geq t)$ 。霍夫丁不等式在1963年由瓦西里·霍夫丁（Wassily Hoeffding）證明。

Hoeffding不等式是吾妻不等式和McDiarmid不等式的一個特例。它類似於切爾諾夫界，但往往不那麼尖銳，特別是當隨機變量的方差很小時。它與伯恩斯坦不等式相似，但無法與之相比。

闡述

設有兩兩獨立的一系列隨機變量 $X_{1},\dots ,X_{n}\!$ 。假設對所有的 $1\leq i\leq n$ ， $X_{i}$ 變量幾乎必然滿足 $a_{i}\leqslant X_{i}\leqslant b_{i},$ 即 $\mathbb {P} (X_{i}\in [a_{i},b_{i}])\approx 1.\!$ 考慮這些隨機變量的總和， $S_{n}=\sum _{i=1}^{n}X_{i}=X_{1}+X_{2}+X_{3}+\cdots +X_{n-1}+X_{n}.$ 然後霍夫丁不等式指出，對於所有 $t>0$ 有：

$\mathbb {P} (S_{n}-\mathbb {E} [S_{n}]\geqslant t)\leqslant \exp \left(-{\frac {2t^{2}}{\textstyle \sum _{i=1}^{n}(b_{i}-a_{i})^{2}\displaystyle }}\right)$
$\mathbb {P} (|S_{n}-\mathbb {E} [S_{n}]|\geqslant t)\leqslant 2\exp \left(-{\frac {2t^{2}}{\textstyle \sum _{i=1}^{n}(b_{i}-a_{i})^{2}\displaystyle }}\right)$

這裏 $\mathbb {E} [S_{n}]$ 是 $S_{n}$ 的期望值。

值得注意的是，若 $X_{i}$ 為抽樣獲得，該不等式仍成立；但在這種情況下，隨機變量不再是獨立的。這一說法的證據可以在 Hoeffding ^[1]的論文中找到。對於抽樣的稍微更好的上界，可參見Serfling（1974）^[2]的論文。

另一種形式

設有兩兩獨立的一系列隨機變量 $X_{1},\dots ,X_{n}\!$ 。^[3]那麼這n個隨機變量的經驗期望值：

{\overline {X}}={\frac {X_{1}+\cdots +X_{n}}{n}}

滿足以下的不等式^[4]：

\mathbb {P} ({\overline {X}}-\mathbb {E} [{\overline {X}}]\geq t)\leq \exp \left(-{\frac {2t^{2}n^{2}}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}\right),\!

\mathbb {P} (|{\overline {X}}-\mathbb {E} [{\overline {X}}]|\geq t)\leq 2\exp \left(-{\frac {2t^{2}n^{2}}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}\right),\!

特別地

假定對於所有的 $i$ 都有 $a_{i}=0,b_{i}=1$ 。當 $X_{i}$ 是獨立的伯努利隨機變量時，儘管它們不必服從相同分佈，我們可以得到如下更為簡潔的不等式：

$\mathbb {P} (S_{n}-\mathbb {E} [S_{n}]\geqslant t)\leqslant \exp(-{\frac {2t^{2}}{n}}).$

上式對於所有的 $t\geqslant 0$ 成立。這樣我們就得到了增強版的切爾諾夫界。它更為通用，因為它允許取值介於 0 和 1 之間的隨機變量，但效果較差，因為當隨機變量方差較小時，切爾諾夫界給出了更好的尾邊界。

亞高斯隨機變量的一般情況

霍夫丁不等式的證明可以推廣到任何次高斯分佈。

回想一下，隨機變量 $X$ 服從亞高斯分佈，是否存在 $c>0$ 使得， $\mathbb {P} (\left\vert X\right\vert \geqslant t)\leqslant 2e^{-ct^{2}}$ 成立。

對於任意有界變量 $X,$ $t>T$ （ $T$ 足夠大），有 $\mathbb {P} (|X|\geqslant t)=0\leqslant 2e^{-ct^{2}}$ 。對於任意的 $t\leqslant T$ 有 $2e^{-cT^{2}}\leqslant 2e^{-ct^{2}}$ ，取 $c={\frac {\ln 2}{T^{2}}}$ 則有 $\mathbb {P} (|X|\geqslant t)\leqslant 1\leqslant 2e^{-cT^{2}}\leqslant 2e^{-ct^{2}},$ 所以每個有界變量都是亞高斯變量。

對於隨機變量 $X$ ，下式範數是有限的，當且僅當 $X$ 是亞高斯：

$\lVert X\rVert _{\psi _{2}}{\overset {\underset {\mathrm {def} }{}}{=}}\inf\{c\geq 0:\mathbb {E} [e^{\frac {X^{2}}{c^{2}}}]\}.$

然後設 $X_{1},\cdots ,X_{n}$ 為零均值獨立亞高斯隨機變量，霍夫丁不等式的一般版本指出：

$\mathbb {P} (|\sum _{i=1}^{n}X_{i}|\geqslant t)\leqslant 2\exp(-{\frac {ct^{2}}{\textstyle \sum _{i=1}^{n}\displaystyle \lVert X_{i}\rVert _{\psi _{2}}^{2}}}),$ 其中 $c>0$ 且為絕對常數^[5]。

證明

霍夫丁界的證明與切爾諾夫界等集中不等式類似^[6]。主要區別在於使用霍夫丁引理：

假設 $X$ 是一個真正的隨機變量，那麼幾乎必然 $X\in \left[a,b\right]$ 。然後 $\mathbb {E} \left[e^{s\left(X-\mathbb {E} \left[X\right]\right)}\right]\leqslant \exp \left({\tfrac {1}{8}}s^{2}(b-a)^{2}\right).$

使用這個引理，我們可以證明霍夫丁不等式。如定理陳述，假設 $X_{1},\cdots ,X_{n}$ 為 $n$ 個獨立隨機變量， $X_{i}\in \left[a_{i},b_{i}\right],$ $s.t.\ i\in N_{+}$ 幾乎必然。設 $S_{n}=X_{1}+\cdots +X_{n}.$ 那麼對於 $s>0$ 且 $t>0$ , 聯立馬可夫不等式和 $X_{i}$ 的獨立性可得：

${\begin{aligned}\operatorname {P} \left(S_{n}-\mathrm {E} \left[S_{n}\right]\geq t\right)&=\operatorname {P} \left(\exp(s(S_{n}-\mathrm {E} \left[S_{n}\right]))\geq \exp(st)\right)\\&\leq \exp(-st)\mathrm {E} \left[\exp(s(S_{n}-\mathrm {E} \left[S_{n}\right]))\right]\\&=\exp(-st)\prod _{i=1}^{n}\mathrm {E} \left[\exp(s(X_{i}-\mathrm {E} \left[X_{i}\right]))\right]\\&\leq \exp(-st)\prod _{i=1}^{n}\exp {\Big (}{\frac {s^{2}(b_{i}-a_{i})^{2}}{8}}{\Big )}\\&=\exp \left(-st+{\tfrac {1}{8}}s^{2}\sum _{i=1}^{n}(b_{i}-a_{i})^{2}\right)\ \end{aligned}}$

此上界對於 $s$ 的值是最佳的，最小值在指數 $O(e^{n})$ 範圍內。這可以通過最佳化二次曲線輕鬆完成，給出 $s={\frac {4t}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}.$

為這個值 $s$ 編寫上面的界限，我們得到所需的界限： $\operatorname {P} \left(S_{n}-\mathrm {E} \left[S_{n}\right]\geq t\right)\leq \exp \left(-{\frac {2t^{2}}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}\right).$

用法

霍夫丁不等式可用於推導置信區間。我們考慮一枚硬幣，它以概率 $p$ 顯示正面，以概率 $1-p$ 顯示反面。我們拋硬幣 $n$ 次，生成 $n$ 個樣本 $X_{1},\cdots ,X_{n}$ （即獨立同分佈伯努利隨機變量）。硬幣正面朝上的預期次數是 $p\cdot n$ 。此外，硬幣正面至少出現k次的概率可以通過以下表達式精確量化：

$\operatorname {\mathbb {P} } (H(n)\geqslant k)=\sum _{i=k}^{n}{\binom {n}{i}}p^{i}(1-p)^{n-i},$ 其中 $H(n)$ 是 $n$ 次拋硬幣的正面數量。當 $k=(p+\varepsilon )n$ 表示某個 $\varepsilon >0$ 時，霍夫丁不等式將這個概率限制為一個在 $\varepsilon ^{2}n$ 中呈指數小的項：

$\operatorname {\mathbb {P} } (H(n)-pn>\varepsilon n)\leqslant \exp \left(-2\varepsilon ^{2}n\right).$

由於這個界限在均值的兩側都成立，霍夫丁不等式意味着我們看到的頭部數量集中在其均值周圍，尾部呈指數級小。

$\operatorname {\mathbb {P} } (|H(n)-pn|>\varepsilon n)\leqslant 2\exp \left(-2\varepsilon ^{2}n\right).$

${\overline {X}}={\frac {1}{n}}H(n)$ 作為「觀察到的」平均值，該概率可以解釋為一個置信區間的顯著水平 $\alpha$ （出錯的概率），這個置信區間是中心為 $p$ 的 $\varepsilon$ 鄰域：

$\alpha =\operatorname {\mathbb {P} } (\ {\overline {X}}\notin [p-\varepsilon ,p+\varepsilon ])\leqslant 2e^{-2\varepsilon ^{2}n}.$ 解出 $n$ : $n\geqslant {\frac {\log({\frac {2}{\alpha }})}{2\varepsilon ^{2}}}.$ ^[7] 因此，我們至少需要 ${\frac {\log({\frac {2}{\alpha }})}{2\varepsilon ^{2}}}$ 份樣本才能獲得 (1- α)-置信區間 $\textstyle p\pm \varepsilon$ 。因此，獲取置信區間的成本在置信水平方面是次線性的，在精度方面是二次的。請注意，有更有效的方法來估計置信區間。

參見

參考文獻

^ Hoeffding, Wassily. Probability Inequalities for Sums of Bounded Random Variables. Journal of the American Statistical Association. 1963-03, 58 (301) [2023-07-29]. ISSN 0162-1459. doi:10.1080/01621459.1963.10500830. （原始內容存檔於2023-06-19）（英語）.
^ Serfling, R. J. Probability Inequalities for the Sum in Sampling without Replacement. The Annals of Statistics. 1974-01, 2 (1) [2023-07-29]. ISSN 0090-5364. doi:10.1214/aos/1176342611. （原始內容存檔於2023-07-29）.
^ 集中不等式. 維基百科，自由的百科全書. 2022-03-08 （中文）.
^ Wassily Hoeffding, Probability inequalities for sums of bounded random variables, Journal of the American Statistical Association 58 (301): 13–30, March 1963. (JSTOR)（英文）
^ Vershynin, Roman. High-dimensional probability: an introduction with applications in data science. Cambridge University Press. 2018. ISBN 978-1-108-41519-4.
^ Boucheron, Stéphane; Lugosi, Gábor; Massart, Pascal. Concentration inequalities: a nonasymptotic theory of independence. Oxford: Oxford university press. 2013 [2023-07-29]. ISBN 978-0-19-953525-5. （原始內容存檔於2022-07-30）.
^ Hoeffding's inequality. Wikipedia. 2023-07-02 （英語）.

[1] Hoeffding, Wassily. Probability Inequalities for Sums of Bounded Random Variables. Journal of the American Statistical Association. 1963-03, 58 (301) [2023-07-29]. ISSN 0162-1459. doi:10.1080/01621459.1963.10500830. （原始內容存檔於2023-06-19）（英語）.

[2] Serfling, R. J. Probability Inequalities for the Sum in Sampling without Replacement. The Annals of Statistics. 1974-01, 2 (1) [2023-07-29]. ISSN 0090-5364. doi:10.1214/aos/1176342611. （原始內容存檔於2023-07-29）.

[3] 集中不等式. 維基百科，自由的百科全書. 2022-03-08 （中文）.

[4] Wassily Hoeffding, Probability inequalities for sums of bounded random variables, Journal of the American Statistical Association 58 (301): 13–30, March 1963. (JSTOR)（英文）

[5] Vershynin, Roman. High-dimensional probability: an introduction with applications in data science. Cambridge University Press. 2018. ISBN 978-1-108-41519-4.

[6] Boucheron, Stéphane; Lugosi, Gábor; Massart, Pascal. Concentration inequalities: a nonasymptotic theory of independence. Oxford: Oxford university press. 2013 [2023-07-29]. ISBN 978-0-19-953525-5. （原始內容存檔於2022-07-30）.

[7] Hoeffding's inequality. Wikipedia. 2023-07-02 （英語）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]