卜瓦松分布

卜瓦松分布
	機率質量函數; 橫軸是索引k，發生次數。該函數只定義在k為整數的時候。連接線是只為了指導視覺。
	累積分布函數; 橫軸是索引k，發生次數。CDF在整數k處不連續，且在其他任何地方都是水平的，因為服從卜瓦松分布的變量只針對整數值。
母數	λ > 0（實數）
值域
機率質量函數
累積分布函數	，或，或 (對於，其中是不完全Γ函數，是高斯符號，Q是規則化Γ函數)
期望值
中位數
眾數
變異數
偏度
峰度
熵	（假設較大） ;
動差母函數
特徵函數
機率母函數

卜瓦松分布（法語：loi de Poisson；英語：Poisson distribution）又稱Poisson分布、泊松分布、布瓦松分布、布阿松分布、普阿松分布、波以松分布、卜氏分布、帕松小數法則（Poisson law of small numbers），是一種統計與機率學裡常見到的離散機率分布，由法國數學家西莫恩·德尼·卜瓦松在1838年時發表。

卜瓦松分布適合於描述單位時間內隨機事件發生的次數的機率分布。如某一服務設施在一定時間內受到的服務請求的次數，電話交換機接到呼叫的次數、汽車站台的候客人數、機器出現的故障數、自然災害發生的次數、DNA序列的變異數、放射性原子核的衰變數、雷射的光子數分布等等。（單位時間內發生的次數，可以看作事件發生的頻率，類似物理的頻率 $f$ ）。

卜瓦松分布的機率質量函數為：

P(X=k)={\frac {e^{-\lambda }\lambda ^{k}}{k!}}

卜瓦松分布的母數 $\lambda$ 是隨機事件發生次數的數學期望值。

記號

若 $X$ 服從母數為 $\lambda$ 的卜瓦松分布，記為 $X\sim \pi (\lambda )$ ，或記為 $X\sim {\text{Poisson}}(\lambda )$ .

性質

1、服從卜瓦松分布的隨機變數，其數學期望值與變異數相等，同為母數 $\lambda$ : $E(X)=V(X)=\lambda$

2、兩個獨立且服從卜瓦松分布的隨機變數，其和仍然服從卜瓦松分布。更精確地說，若 $X\sim {\text{Poisson}}(\lambda _{1})$ 且 $Y\sim {\text{Poisson}}(\lambda _{2})$ ，則 $X+Y\sim {\text{Poisson}}(\lambda _{1}+\lambda _{2})$ 。反過來若兩個獨立隨機變數的和服從卜瓦松分布，則這兩個隨機變數經平移後皆服從卜瓦松分布（Raikov定理（英語：Raikov's theorem））。

3、其動差母函數為：

M_{X}(t)=E[e^{tX}]=\sum _{x=0}^{\infty }e^{tx}{\frac {e^{-\lambda }\lambda ^{x}}{x!}}=e^{-\lambda }\sum _{x=0}^{\infty }{\frac {({e^{t}}\lambda )^{x}}{x!}}=e^{{\lambda }(e^{t}-1)}

推導

期望值：(倒數第三至第二是使用泰勒展開式)

${\begin{aligned}\mathrm {E} (X)&=\sum _{i=0}^{\infty }\displaystyle iP(X=i)\\&=\sum _{i=1}^{\infty }\displaystyle i{e^{-\lambda }\lambda ^{i} \over i!}\\&=\lambda e^{-\lambda }\sum _{i=1}^{\infty }\displaystyle {\lambda ^{i-1} \over (i-1)!}\\&=\lambda e^{-\lambda }\sum _{i=0}^{\infty }\displaystyle {\lambda ^{i} \over i!}\\&=\lambda e^{-\lambda }e^{\lambda }\\&=\lambda \end{aligned}}$

${\begin{aligned}\mathrm {E} (X^{2})&=\sum _{i=0}^{\infty }\displaystyle i^{2}P(X=i)\\&=\sum _{i=1}^{\infty }\displaystyle i^{2}{e^{-\lambda }\lambda ^{i} \over i!}\\&=\lambda e^{-\lambda }\sum _{i=1}^{\infty }\displaystyle {i\lambda ^{i-1} \over (i-1)!}\\&=\lambda e^{-\lambda }\sum _{i=1}^{\infty }\displaystyle {1 \over (i-1)!}{d \over d\lambda }(\lambda ^{i})\\&=\lambda e^{-\lambda }{d \over d\lambda }\left[\sum _{i=1}^{\infty }\displaystyle {\lambda ^{i} \over (i-1)!}\right]\\&=\lambda e^{-\lambda }{d \over d\lambda }\left[\lambda \sum _{i=1}^{\infty }\displaystyle {\lambda ^{i-1} \over (i-1)!}\right]\\&=\lambda e^{-\lambda }{d \over d\lambda }(\lambda e^{\lambda })=\lambda e^{-\lambda }(e^{\lambda }+\lambda e^{\lambda })=\lambda +\lambda ^{2}\end{aligned}}$

我們可以得到： $Var(X)=(\lambda +\lambda ^{2})-\lambda ^{2}=\lambda$

如同性質： $E(X)=Var(X)=\lambda$ 、 $\sigma _{X}={\sqrt {\lambda }}$

相互獨立的卜瓦松分布隨機變數之和仍服從卜瓦松分布：

$X\sim {\text{Poisson}}(\lambda _{1}),Y\sim {\text{Poisson}}(\lambda _{2}).$

$P(X=k_{1})={\dfrac {\lambda _{1}^{k_{1}}e^{-\lambda _{1}}}{k_{1}!}},P(Y=k_{2})={\dfrac {\lambda _{2}^{k_{2}}e^{-\lambda _{2}}}{k_{2}!}}.$

${\begin{aligned}P(X+Y=k)&=\sum _{i=0}^{k}P(X=i)P(Y=k-i)\\&=\sum _{i=0}^{k}{\frac {\lambda _{1}^{i}\lambda _{2}^{k-i}e^{-(\lambda _{1}+\lambda _{2})}}{i!(k-i)!}}\\&={\frac {e^{-(\lambda _{1}+\lambda _{2})}}{k!}}\sum _{i=0}^{k}C_{k}^{i}\lambda _{1}^{i}\lambda _{2}^{k-i}\\&={\frac {e^{-(\lambda _{1}+\lambda _{2})}(\lambda _{1}+\lambda _{2})^{k}}{k!}}\end{aligned}}$

$X+Y\sim {\text{Poisson}}(\lambda _{1}+\lambda _{2})$

卜瓦松分布的來源（卜瓦松小數定律）

在二項分布的伯努利試驗中，如果試驗次數 $n$ 很大，二項分布的機率 $p$ 很小，且乘積 $\lambda =np$ 比較適中，則事件出現的次數的機率可以用卜瓦松分布來逼近。事實上，二項分布可以看作卜瓦松分布在離散時間上的對應物。

證明如下。首先，回顧自然對數 $e$ 的定義：

\lim _{n\to \infty }\left(1-{\lambda  \over n}\right)^{n}=e^{-\lambda },

二項分布的定義：

P(X=k)={n \choose k}p^{k}(1-p)^{n-k}

。

如果令 $p={\frac {\lambda }{n}}$ ， $n$ 趨於無窮時 $P$ 的極限：

{\begin{aligned}\lim _{n\to \infty }P(X=k)&=\lim _{n\to \infty }{n \choose k}p^{k}(1-p)^{n-k}\\&=\lim _{n\to \infty }{n! \over (n-k)!k!}\left({\lambda  \over n}\right)^{k}\left(1-{\lambda  \over n}\right)^{n-k}\\&=\lim _{n\to \infty }\underbrace {\left[{\frac {n!}{n^{k}\left(n-k\right)!}}\right]} _{F}\left({\frac {\lambda ^{k}}{k!}}\right)\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{n}} _{\to \exp \left(-\lambda \right)}\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{-k}} _{\to 1}\\&=\lim _{n\to \infty }\underbrace {\left[\left(1-{\frac {1}{n}}\right)\left(1-{\frac {2}{n}}\right)\ldots \left(1-{\frac {k-1}{n}}\right)\right]} _{\to 1}\left({\frac {\lambda ^{k}}{k!}}\right)\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{n}} _{\to \exp \left(-\lambda \right)}\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{-k}} _{\to 1}\\&=\left({\frac {\lambda ^{k}}{k!}}\right)\exp \left(-\lambda \right)\end{aligned}}

最大概似估計（MLE）

給定 $n$ 個樣本值 $k_{i}$ ，希望得到從中推測出母體的卜瓦松分布母數 $\lambda$ 的估計。為計算最大概似估計值，列出對數概似函數：

{\begin{aligned}L(\lambda )&=\ln \prod _{i=1}^{n}f(k_{i}\mid \lambda )\\&=\sum _{i=1}^{n}\ln \!\left({\frac {e^{-\lambda }\lambda ^{k_{i}}}{k_{i}!}}\right)\\&=-n\lambda +\left(\sum _{i=1}^{n}k_{i}\right)\ln(\lambda )-\sum _{i=1}^{n}\ln(k_{i}!).\end{aligned}}

{\frac {\mathrm {d} }{\mathrm {d} \lambda }}L(\lambda )=0\iff -n+\left(\sum _{i=1}^{n}k_{i}\right){\frac {1}{\lambda }}=0.\!

解得λ從而得到一個駐點（stationary point）：

{\widehat {\lambda }}_{\mathrm {MLE} }={\frac {1}{n}}\sum _{i=1}^{n}k_{i}.\!

檢查函數 $L$ 的二階導數，發現對所有的 $\lambda$ 與 $k_{i}$ 大於零的情況二階導數都為負。因此求得的駐點是對數概似函數 $L$ 的極大值點：

{\frac {\partial ^{2}L}{\partial \lambda ^{2}}}=\sum _{i=1}^{n}-\lambda ^{-2}k_{i}

例子

對某公共汽車站的客流做調查，統計了某天上午10:30到11:47來到候車的乘客情況。假定來到候車的乘客各批（每批可以是1人也可以是多人）是互相獨立發生的。觀察每20秒區間來到候車的乘客批次，共觀察77分鐘*3=231次，共得到230個觀察記錄。其中來到0批、1批、2批、3批、4批及4批以上的觀察記錄分別是100次、81次、34次、9次、6次。使用極大似真估計（MLE），得到 $\lambda$ 的估計為 ${\frac {81\times 1+34\times 2+9\times 3+6\times 4}{230}}\approx 0.87$ 。

生成卜瓦松分布的隨機變數

一個用來生成隨機卜瓦松分布的數字（偽隨機數抽樣）的簡單算法，已經由高德納給出（見下文參考）：

algorithm poisson random number (Knuth):
    init:
         Let L ← e^−λ, k ← 0 and p ← 1.
    do:
         k ← k + 1.
         Generate uniform random number u in [0,1] and let p ← p×u.
    while p > L.
    return k − 1.

儘管簡單，但複雜度是線性的，在返回的值 $k$ ，平均是 $\lambda$ 。還有許多其他算法來克服這一點。有些人由Ahrens和Dieter給出，請參閱下面的參考資料。同樣，對於較大的 $\lambda$ 值， $e^{-\lambda }$ 可能導致數值穩定性問題。對於較大 $\lambda$ 值的一種解決方案是拒絕採樣，另一種是採用卜瓦松分布的高斯近似。

對於很小的 $\lambda$ 值，逆轉換取樣簡單而且高效，每個樣本只需要一個均勻隨機數u。直到有超過 $u$ 的樣本，才需要檢查累積機率。

algorithm Poisson generator based upon the inversion by sequential search:^[1]
    init:
         Let x ← 0, p ← e^−λ, s ← p.
         Generate uniform random number u in [0,1].
    do:
         x ← x + 1.
         p ← p * λ / x.
         s ← s + p.
    while u > s.
    return x.

參見

參考文獻

引用

^ Luc Devroye, Non-Uniform Random Variate Generation（Springer-Verlag, New York, 1986）, chapter 10, page 505 http://luc.devroye.org/rnbookindex.html （頁面存檔備份，存於網際網路檔案館）

來源

Guerriero V. Power Law Distribution: Method of Multi-scale Inferential Statistics. Journal of Modern Mathematics Frontier (JMMF). 2012, 1: 21–28 [2017-10-30]. （原始內容存檔於2018-02-21）.
Joachim H. Ahrens, Ulrich Dieter. Computer Methods for Sampling from Gamma, Beta, Poisson and Binomial Distributions. Computing. 1974, 12 (3): 223–246. doi:10.1007/BF02293108.
Joachim H. Ahrens, Ulrich Dieter. Computer Generation of Poisson Deviates. ACM Transactions on Mathematical Software. 1982, 8 (2): 163–179. doi:10.1145/355993.355997.
Ronald J. Evans, J. Boersma, N. M. Blachman, A. A. Jagers. The Entropy of a Poisson Distribution: Problem 87-6. SIAM Review. 1988, 30 (2): 314–317. doi:10.1137/1030059.
Donald E. Knuth. Seminumerical Algorithms. The Art of Computer Programming. Volume 2. Addison Wesley. 1969.

[1] Luc Devroye, Non-Uniform Random Variate Generation（Springer-Verlag, New York, 1986）, chapter 10, page 505 http://luc.devroye.org/rnbookindex.html （頁面存檔備份，存於網際網路檔案館）

[1]

機率質量函數橫軸是索引k，發生次數。該函數只定義在k為整數的時候。連接線是只為了指導視覺。
累積分布函數橫軸是索引k，發生次數。CDF在整數k處不連續，且在其他任何地方都是水平的，因為服從卜瓦松分布的變量只針對整數值。
母數	λ > 0（實數）
值域	$k\in \{0,1,2,3,\cdots \}$
機率質量函數	${\frac {\lambda ^{k}}{k!}}e^{-\lambda }$
累積分布函數	${\frac {\Gamma (\lfloor k+1\rfloor ,\lambda )}{\lfloor k\rfloor !}}$ ，或 $e^{-\lambda }\sum _{i=0}^{\lfloor k\rfloor }{\frac {\lambda ^{i}}{i!}}\$ ，或 $Q(\lfloor k+1\rfloor ,\lambda )$ (對於 $k\geq 0$ ，其中 $\Gamma (x,y)$ 是不完全Γ函數， $\lfloor k\rfloor$ 是高斯符號，Q是規則化Γ函數)
期望值	$\lambda$
中位數	$\approx \lfloor \lambda +1/3-0.02/\lambda \rfloor$
眾數	$\lceil \lambda \rceil -1,\lfloor \lambda \rfloor$
變異數	$\lambda$
偏度	$\lambda ^{-1/2}$
峰度	$\lambda ^{-1}$
熵	$\lambda [1-\log(\lambda )]+e^{-\lambda }\sum _{k=0}^{\infty }{\frac {\lambda ^{k}\log(k!)}{k!}}$ （假設 $\lambda$ 較大） ${\frac {1}{2}}\log(2\pi e\lambda )-{\frac {1}{12\lambda }}-{\frac {1}{24\lambda ^{2}}}-$ $\qquad {\frac {19}{360\lambda ^{3}}}+O\left({\frac {1}{\lambda ^{4}}}\right)$
動差母函數	$\exp(\lambda (e^{t}-1))$
特徵函數	$\exp(\lambda (e^{it}-1))$
機率母函數	$\exp(\lambda (z-1))$