二项分布

二项分布
	概率质量函数
	累积分布函数
记号
参数	;
值域
概率质量函数
累积分布函数
期望值
中位数	或
众数
方差
偏度
峰度
熵
矩生成函数
特征函数
概率母函数

在概率论和统计学中，二项分布（英语：binomial distribution）是一种离散概率分布，描述在进行独立随机试验时，每次试验都有相同概率“成功”的情况下，获得成功的总次数。掷硬币十次出现五次正面的概率、产品合格率 $\,99\%\,$ 时抽出一百件样本没有发现一件次品的概率等等，都可以由二项分布给出。

只有“成功”和“失败”两种可能结果，每次重复时成功概率不变的独立随机试验称作伯努利试验，例如上述的掷硬币出现正面或反面、对产品进行抽样检查时抽到正品或次品。伯努利试验作为理论模型，其前提在现实中无法完全得到满足，比如生产线会磨损，因此每件产品合格的概率并非固定^[1]。尽管如此，二项分布给出的概率通常足以用于提供有用的推断；即使在已知前提没有满足的场合，二项分布也能用于参考和比较。二项分布的应用出现在遗传学、质量控制等领域之中。^[2]

定义

若随机变量 $\,X\,$ 有概率质量函数

\Pr(X=k)={n \choose k}p^{k}(1-p)^{n-k}\quad (k=0,1,\ldots ,n),

其中 $\,n\,$ 为正整数、 $\,0\leq p\leq 1\,$ ，则称 $\,X\,$ 服从参数为 $\,n,p\,$ 的二项分布^[3]，记为 $\,X\sim \operatorname {B} (n,p)\,$ 或 $\,X\sim \operatorname {Bin} (n,p)\,$ 。习惯上 $\,1-p\,$ 也用 $\,q\,$ 表示。^[1]

推导

进行 $\,n\,$ 次独立伯努利试验的结果可以由 $\,n\,$ 个字母表示，例如用 $\,S\,$ 表示成功， $\,F\,$ 表示失败，则

SSFSF

表示五次试验中第一、二、四次的结果为成功，其余为失败。设每次试验成功的概率为 $\,p\,$ ，失败的概率为 $\,1-p\,$ 。因为试验相互独立，每一种排列 $\,k\,$ 个 $\,S\,$ 、 $\,n-k\,$ 个 $\,F\,$ 的方式对应的概率为 $\,p^{k}(1-p)^{n-k}\,$ 。^[1]

从 $\,n\,$ 个不同元素中选出含 $\,k\,$ 个元素的子集的方法数量等于二项式系数

{n \choose k}={\frac {n!}{k!(n-k)!}}.

^[4]

而每种对 $\,k\,$ 个 $\,S\,$ 、 $\,n-k\,$ 个 $\,F\,$ 的排列都可理解为从 $\,n\,$ 个位置中选出 $\,k\,$ 个作为字母 $\,S\,$ 的位置的方法，这种方法的数量即为 $\,{n \choose k}\,$ 。与每种排列方式对应的概率相乘，便得到定义中的概率

{n \choose k}p^{k}(1-p)^{n-k}.

^[5]

历史

二项分布是最早得到研究的概率分布之一^[6]。丹麦统计学家安德斯·哈尔德认为其历史可以追溯至布莱兹·帕斯卡与皮埃尔·德·费马于1654年对点数分配问题的讨论：两名玩家赢得每局游戏的机会相同，赢得一定局数的胜者可获得奖金，但比赛仅进行了数局，尚未分出胜负就被迫中断，则奖金该如何分配？帕斯卡认为，奖金的分配应当基于玩家距离胜利所差的局数：若一名玩家还需 $\,r\,$ 局获胜，另一名玩家还需 $\,s\,$ 局获胜，则应考虑在 $\,r+s-1\,$ 局比赛的 $\,2^{r+s-1}\,$ 种结果中，两名玩家分别在多少种情况中获胜。两人的讨论限于这一问题本身，并未推导出二项分布的概率，但这一解法可被视作基于参数 $\,p=1/2\,$ 的二项分布。^[7]

对二项分布概率的推导为雅各布·伯努利于《猜度术（英语：Ars Conjectandi）》中作出。该著作在他去世后，于1713年得到出版，被视作概率论的奠基性作品。伯努利还在其中首次给出了弱大数定律的严格证明^[8]^[9]。对二项分布的正态近似则是由亚伯拉罕·棣莫弗发现，这一工作于1733年完成，于1738年出版在其著作《机遇论（英语：The Doctrine of Chances）》的第二版中。^[10]

性质

参数为 $\,n,p\,$ 的二项分布的期望值为 $\,np\,$ ，方差为 $\,np(1-p)\,$ 。其概率母函数为

G(z)=(1-p+pz)^{n},

矩母函数为

M_{X}(t)=(1-p+pe^{t})^{n},

特征函数为

\varphi _{X}(t)=(1-p+pe^{it})^{n}.

^[3]^[11]

参数 $\,n=1\,$ 的二项分布称作伯努利分布^[3]。多项分布（英语：Multinomial distribution）是二项分布的拓展，描述重复进行不限于两种结果、可能有多种可能结果的随机试验时的概率^[12]。二项分布本身是超几何分布的极限形式。^[13]

二项分布的和

若 $\,X_{1},X_{2}\,$ 两个随机变量独立，分别服从参数为 $\,n_{1},p\,$ 和 $\,n_{2},p\,$ 的二项分布，则 $\,X_{1}+X_{2}\,$ 即是在 $\,n_{1}+n_{2}\,$ 次独立伯努利试验中取得成功的次数，所以 $\,X_{1}+X_{2}\,$ 服从参数为 $\,n_{1}+n_{2},p\,$ 的二项分布。这一结论亦可通过将两者的概率母函数相乘而得出。在条件 $\,X_{1}+X_{2}=k\,$ 之下，随机变量 $\,X_{1}\,$ 的条件概率分布是参数为 $\,k,n_{1},n_{1}+n_{2}\,$ 的超几何分布。^[14]

众数

计算 $\,\Pr(X=k)\,$ 和 $\,\Pr(X=k+1)\,$ 的比值可以得到

{\frac {\Pr(X=k+1)}{\Pr(X=k)}}={\frac {(n-k)p}{(k+1)(1-p)}}\quad (k=0,1,\ldots ,n-1),

因此，当 $\,k<(n+1)p-1\,$ 时， $\,\Pr(X=k)\,$ 随 $\,k\,$ 增加而上升；当 $\,k>(n+1)p-1\,$ 时， $\,\Pr(X=k)\,$ 随 $\,k\,$ 增加而下降。故二项分布的众数为 $\,(n+1)p\,$ 的下取整 $\,\lfloor (n+1)p\rfloor \,$ 。若 $\,(n+1)p\,$ 本身是整数，则 $\,(n+1)p\,$ 和 $\,(n+1)p-1\,$ 均是众数。若 $\,p<(n+1)^{-1}\,$ ，则众数为 $\,0\,$ 。^[15]

中位数

二项分布的中位数 $\,m\,$ 位于 $\,np\,$ 的上下取整之间，即 $\,\lfloor np\rfloor \leq m\leq \lceil np\rceil \,$ ；若 $\,np\,$ 为整数，则中位数 $\,m=np\,$ 。中位数 $\,m\,$ 和期望值 $\,np\,$ 之间的差满足

|m-np|<\max\{p,1-p\}.

若 $\,p>\ln 2\,$ 或 $\,p<1-\ln 2\,$ ，则该上界可进一步缩减为

|m-np|<\ln 2.

若 $\,n\,$ 为奇数、 $\,p=1/2\,$ ，则 $\,(n-1)/2\,$ 和 $\,(n+1)/2\,$ 均为中位数。^[16]^[17]

累积分布函数

二项分布的累积分布函数和尾概率可以用正则化不完全贝塔函数表示为

\Pr(X\leq k)=I_{1-p}(n-\lfloor k\rfloor ,\lfloor k\rfloor +1),

\Pr(X\geq k)=I_{p}(\lceil k\rceil ,n-\lceil k\rceil +1).

^[18]

矩

二项分布的 $\,r\,$ 阶原点矩满足

\mu '_{r}=E[X^{r}]=\sum _{j=0}^{r}{\frac {S(r,j)n!p^{j}}{(n-j)!}},

其中 $\,S(r,j)\,$ 表示第二类（英语：Stirling numbers of the second kind）斯特林数。具体而言，

\mu '_{1}=np,

\mu '_{2}=np+n(n-1)p^{2},

\mu '_{3}=np+3n(n-1)p^{2}+n(n-1)(n-2)p^{3},

\mu '_{4}=np+7n(n-1)p^{2}+6n(n-1)(n-2)p^{3}+n(n-1)(n-2)(n-3)p^{4}.

其低阶中心矩为

\mu _{2}=np(1-p),

\mu _{3}=np(1-p)(1-2p),

\mu _{4}=3[np(1-p)]^{2}+np(1-p)[1-6p(1-p)].

^[19]

近似

正态近似

n=6

、

p=0.5

时的二项分布及其正态近似

标准二项分布

X'={\frac {X-np}{\sqrt {np(1-p)}}}

在 $\,n\to \infty \,$ 时趋近于标准正态分布。这一结果称作棣莫弗-拉普拉斯定理（英语：De Moivre–Laplace theorem），为中心极限定理的特殊形式。基于这一定理可以得到

\Pr(\alpha <{\frac {X-np}{\sqrt {np(1-p)}}}<\beta )\to \Phi (\beta )-\Phi (\alpha ),

其中 $\,\Phi \,$ 为标准正态分布的累积分布函数。^[20]

正态分布为连续概率分布，在近似二项分布这类离散概率分布时，可将端点向外偏移 $\,0.5\,$ 得到

\Pr(X\leq k)\approx \Phi \left({\frac {k+0.5-np}{\sqrt {np(1-p)}}}\right),

从而提升近似的准确性，这种技巧称作连续性校正（英语：Continuity correction）^[21]。何时能采用这一近似依赖于使用经验法则，例如要求 $\,np(1-p)>9\,$ ，或是在 $\,p\leq 0.5\,$ 时要求 $\,np>5\,$ 、在 $\,p>0.5\,$ 时要求 $\,n(1-p)>5\,$ 。^[22]^[23]

泊松近似

当 $\,n\to \infty ,p\to 0\,$ ，而 $\,np\,$ 保持不变时，二项分布趋近于参数为 $\,np\,$ 的泊松分布。以此为基础可以得到

\Pr(X\leq k)\approx e^{-np}\sum _{j=0}^{k}{\frac {(np)^{j}}{j!}}.

^[24]

二项分布与其泊松近似之间的绝对误差存在上界。若随机变量 $\,X\,$ 服从参数为 $\,n,p\,$ 的二项分布，随机变量 $\,Y\,$ 服从参数为 $\,np\,$ 的泊松分布，则

\sum _{k=0}^{\infty }\|\Pr(X=k)-\Pr(Y=k)\|\leq \min\{2np^{2},3p\}.

^[25]

参数估计

点估计

通常参数 $\,n\,$ 为已知。假设随机变量 $\,X\,$ 服从二项分布，其参数 $\,p\,$ 未知。若观测到 $\,X\,$ 的值为 $\,x\,$ ，采用矩估计和最大似然估计对参数 $\,p\,$ 的估计量均为 $\,{\frac {x}{n}}\,$ ，这一估计量为无偏的。^[26]

参数 $\,p\,$ 的贝叶斯估计量（英语：Bayes estimator）取决于使用的先验分布。若使用连续型均匀分布作为先验分布，即假设 $\,0\,$ 和 $\,1\,$ 之间任意等长的区间包含 $\,p\,$ 的概率都相同，则后验均值估计量为

{\widehat {p}}={\frac {x+1}{n+2}}.

这被称作拉普拉斯–贝叶斯估计量（英语：Laplace–Bayes estimator），曾被皮埃尔-西蒙·拉普拉斯用于估计在太阳连续升起 $\,n\,$ 天之后，太阳明天还会升起的概率。由于人类知道太阳在过去五千年，即1,826,213天都正常升起，拉普拉斯愿意以1,826,214比1的赔率赌太阳明天继续升起。^[27]

若使用参数为 $\,\alpha ,\beta \,$ 的贝塔分布作为先验分布，则后验均值估计量为

{\widehat {p}}={\frac {\alpha +x+1}{\alpha +\beta +n+2}}.

采用贝塔分布作为先验分布时，后验分布亦是贝塔分布，即贝塔分布为二项分布的共轭先验。^[28]

区间估计

若要对参数 $\,p\,$ 以区间形式给出估计，通过求解

\sum _{j=x}^{n}{n \choose j}p_{L}^{j}(1-p_{L})^{n-j}={\frac {\alpha }{2}},

\sum _{j=0}^{x}{n \choose j}p_{U}^{j}(1-p_{U})^{n-j}={\frac {\alpha }{2}},

所得的区间 $\,(p_{L},p_{U})\,$ 为一个置信水平近似为 $\,1-\alpha \,$ 的置信区间，称作克洛珀-皮尔逊区间（Clopper-Pearson interval）。^[29]

正态分布可以用于推导近似的置信区间。若用 $\,\lambda _{\alpha /2}\,$ 表示标准正态分布的第 $\,1-{\frac {\alpha }{2}}\,$ 分位数，即 $\,\Phi (\lambda _{\alpha /2})=1-{\frac {\alpha }{2}}\,$ ，则区间两端的近似值为

{\frac {x}{n}}\pm {\frac {\lambda _{\alpha /2}}{\sqrt {n}}}{\sqrt {{\frac {x}{n}}\left(1-{\frac {x}{n}}\right)}}.

^[30]^[31]

参见

注释

^ ^1.0 ^1.1 ^1.2 Feller 1968，第146–147页.
^ Johnson, Kemp & Kotz 2005，第135–136页.
^ ^3.0 ^3.1 ^3.2 Johnson, Kemp & Kotz 2005，第108页.
^ Feller 1968，第34页.
^ Feller 1968，第147–150页.
^ Johnson, Kemp & Kotz 2005，第109页.
^ Hald 2003，第54–63页.
^ Hald 2003，第223–228页.
^ Stigler 1986，第62–70页.
^ Stigler 1986，第70–85页.
^ Johnson, Kemp & Kotz 2005，第109–112页.
^ Feller 1968，第167–169页.
^ Johnson, Kemp & Kotz 2005，第140页.
^ Johnson, Kemp & Kotz 2005，第115页.
^ Johnson, Kemp & Kotz 2005，第112页.
^ Kaas & Buhrman 1980.
^ Hamza 1995.
^ Johnson, Kemp & Kotz 2005，第119页.
^ Johnson, Kemp & Kotz 2005，第110页.
^ Feller 1968，第182–185页.
^ Feller 1968，第185–186页.
^ Schader & Schmid 1989.
^ Johnson, Kemp & Kotz 2005，第116–117页.
^ Feller 1968，第153–154页.
^ Sheu 1984.
^ Johnson, Kemp & Kotz 2005，第126页.
^ Feller 1968，第123–124页.
^ Chew 1971.
^ Johnson, Kemp & Kotz 2005，第130–131页.
^ Johnson, Kemp & Kotz 2005，第132页.
^ Blyth 1986.

参考文献

Blyth, C. R. Approximate Binomial Confidence Limits. Journal of the American Statistical Association. 1986, 81: 843–855. doi:10.1080/01621459.1986.10478343 （英语）.
Chew, V. Point Estimation of the Parameter of the Binomial Distribution. The American Statistician. 1971, 25 (5): 47–50. doi:10.1080/00031305.1971.10477305 （英语）.
Feller, W. An Introduction to Probability Theory and Its Applications, Volume 1, Third Edition. Wiley. 1968. ISBN 0-471-25708-7 （英语）.
Hald, A. A History of Probability and Statistics and Their Applications before 1750. Wiley. 2003. ISBN 0-471-47129-1 （英语）.
Hamza, K. The Smallest Uniform Upper Bound on the Distance Between the Mean and the Median of the Binomial and Poisson Distributions. Statistics and Probability Letters. 1995, 23: 21–25. doi:10.1016/0167-7152(94)00090-U （英语）.
Johnson, N. L.; Kemp, A. W.; Kotz, S. Univariate Discrete Distributions, Third Edition. Wiley. 2005. ISBN 0-471-27246-9 （英语）.
Kaas, R.; Buhrman, J. M. Mean, Median and Mode in Binomial Distributions. Statistica Neerlandica. 1980, 34 (1): 13–18. doi:10.1111/j.1467-9574.1980.tb00681.x （英语）.
Schader, M.; Schmid, F. Two Rules of Thumb for the Approximation of the Binomial Distribution by the Normal Distribution. The American Statistician. 1989, 43 (1): 23–24. doi:10.1080/00031305.1989.10475601 （英语）.
Sheu, S. S. The Poisson Approximation to the Binomial Distribution. The American Statistician. 1984, 38 (3): 206–207. doi:10.1080/00031305.1984.10483202 （英语）.
Stigler, S. M. The History of Statistics: The Measurement of Uncertainty before 1900. Harvard University Press. 1986. ISBN 0-674-40340-1 （英语）.

[FOOTNOTEFeller1968146&ndash;147-1] 1.0 ^1.1 ^1.2 Feller 1968，第146–147页.

[FOOTNOTEJohnsonKempKotz2005135&ndash;136-2] Johnson, Kemp & Kotz 2005，第135–136页.

[FOOTNOTEJohnsonKempKotz2005108-3] 3.0 ^3.1 ^3.2 Johnson, Kemp & Kotz 2005，第108页.

[FOOTNOTEFeller196834-4] Feller 1968，第34页.

[FOOTNOTEFeller1968147&ndash;150-5] Feller 1968，第147–150页.

[FOOTNOTEJohnsonKempKotz2005109-6] Johnson, Kemp & Kotz 2005，第109页.

[FOOTNOTEHald200354&ndash;63-7] Hald 2003，第54–63页.

[FOOTNOTEHald2003223&ndash;228-8] Hald 2003，第223–228页.

[FOOTNOTEStigler198662&ndash;70-9] Stigler 1986，第62–70页.

[FOOTNOTEStigler198670&ndash;85-10] Stigler 1986，第70–85页.

[FOOTNOTEJohnsonKempKotz2005109&ndash;112-11] Johnson, Kemp & Kotz 2005，第109–112页.

[FOOTNOTEFeller1968167&ndash;169-12] Feller 1968，第167–169页.

[FOOTNOTEJohnsonKempKotz2005140-13] Johnson, Kemp & Kotz 2005，第140页.

[FOOTNOTEJohnsonKempKotz2005115-14] Johnson, Kemp & Kotz 2005，第115页.

[FOOTNOTEJohnsonKempKotz2005112-15] Johnson, Kemp & Kotz 2005，第112页.

[FOOTNOTEKaasBuhrman1980-16] Kaas & Buhrman 1980.

[FOOTNOTEHamza1995-17] Hamza 1995.

[FOOTNOTEJohnsonKempKotz2005119-18] Johnson, Kemp & Kotz 2005，第119页.

[FOOTNOTEJohnsonKempKotz2005110-19] Johnson, Kemp & Kotz 2005，第110页.

[FOOTNOTEFeller1968182&ndash;185-20] Feller 1968，第182–185页.

[FOOTNOTEFeller1968185&ndash;186-21] Feller 1968，第185–186页.

[FOOTNOTESchaderSchmid1989-22] Schader & Schmid 1989.

[FOOTNOTEJohnsonKempKotz2005116&ndash;117-23] Johnson, Kemp & Kotz 2005，第116–117页.

[FOOTNOTEFeller1968153&ndash;154-24] Feller 1968，第153–154页.

[FOOTNOTESheu1984-25] Sheu 1984.

[FOOTNOTEJohnsonKempKotz2005126-26] Johnson, Kemp & Kotz 2005，第126页.

[FOOTNOTEFeller1968123&ndash;124-27] Feller 1968，第123–124页.

[FOOTNOTEChew1971-28] Chew 1971.

[FOOTNOTEJohnsonKempKotz2005130&ndash;131-29] Johnson, Kemp & Kotz 2005，第130–131页.

[FOOTNOTEJohnsonKempKotz2005132-30] Johnson, Kemp & Kotz 2005，第132页.

[FOOTNOTEBlyth1986-31] Blyth 1986.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

二项分布
概率质量函数
累积分布函数
记号	$\operatorname {B} (n,p)$
参数	$n>0$ $0\leq p\leq 1$
值域	$k\in \{0,\dots ,n\}$
概率质量函数	${n \choose k}p^{k}(1-p)^{n-k}$
累积分布函数	$I_{1-p}(n-\lfloor k\rfloor ,\lfloor k\rfloor +1)$
期望值	$np$
中位数	$\lfloor np\rfloor$ 或 $\lceil np\rceil$
众数	$\lfloor (n+1)p\rfloor$
方差	$np(1-p)$
偏度	${\frac {1-2p}{\sqrt {np(1-p)}}}$
峰度	${\frac {1-6p(1-p)}{np(1-p)}}$
熵	${\frac {1}{2}}\ln \left(2\pi nep(1-p)\right)+O\left({\frac {1}{n}}\right)$
矩生成函数	$(1-p+pe^{t})^{n}$
特征函数	$(1-p+pe^{it})^{n}$
概率母函数	$(1-p+pz)^{n}$