概率论

“概率论”的各地常用名称
“概率论”的各地常用名称
中国大陆	概率论
台湾	机率论
港澳	概率论
日本、韩国汉字	确率论

概率论（英语：Probability theory）是研究概率、随机性及不确定性等现象的数学分支。概率论主要研究对象为随机事件、随机变量以及随机过程。

对于随机事件是不可能准确预测其结果的，然而对于一系列的独立随机事件——例如掷骰子、扔硬币、抽扑克牌以及轮盘等，会呈现出一定的、可以被用于研究及预测的规律，两个用来描述这些规律的最具代表性的数学结论分别是大数定律和中心极限定理。

作为统计学的数学基础，概率论对诸多涉及大量数据定量分析的人类活动极为重要^[1]，概率论的方法同样适用于其他方面，例如对只知道系统部分状态的复杂系统的描述——统计力学，而二十世纪物理学的重大发现是以量子力学所描述的原子尺度上物理现象的概率本质^{[来源请求]}。

数学家和精算师认为概率是在0至1闭区间内的数字，指定给一发生与失败是随机的“事件”。概率 $P(A)$ 根据概率公理来指定给事件 $A$ 。

一事件 $A$ 在一事件 $B$ 确定发生后会发生的概率称为 $B$ 给之 $A$ 的条件概率；其数值为 ${P(B\cap A) \over P(B)}$ 。若 $B$ 给之 $A$ 的条件概率和 $A$ 的概率相同时，则称 $A$ 和 $B$ 为独立事件。且 $A$ 和 $B$ 的此一关系为对称的，这可以由一同价叙述：“当 $A$ 和 $B$ 为独立事件时， $P(A\cap B)=P(A)P(B)$ 。”中看出。

概率论中的两个重要概念为随机变量和随机变量的概率分布两种。

生活例子

人们对概率总是有一点触摸不清的感觉，而事实上也有很多看似奇异的结果：

六合彩：在六合彩（49选6）中，一共有13,983,816种可能性（参阅组合数学），如果每周都买一组不相同的号，一年有52周，则在实验越多次（一直买直到中奖算一次）之后，平均中奖所花的时间会越接近 ${\frac {13983816}{52}}=268919$ 。

事实上，即使每周买相同的号码，获得头奖的概率也是相同的。但假设每周实际中奖的组合都不重复，268919年的算术推论是正确的，这说明概率和其他数学理论可能导出不同的结论。

六合彩：仍然是六合彩。买5, 17, 19, 24, 33, 49中奖概率高还是买1,2,3,4,5,6的中奖概率高?

古典概率论说：一样。

但实际上机械或彩球制造上都有些微小的差异，所以每组概率不一定完全相同，但必须累积多期开奖结果后才看得出来。

生日悖论：根据概率论，在每23人当中，至少有两个人的生日相同的概率大于50％。
轮盘游戏：在游戏中玩家可能认为，在连续出现多次红色后，出现黑色的概率会越来越大。

这种判断也是错误的，即出现黑色的概率每次是相等的，因为球本身并没有“记忆”，它不会意识到以前都发生了什么，其概率始终是

{\frac {18}{37}}

。

但轮盘的前后期开奖数字形成时间序列（可能存在自回归模型）。

三门问题：在参赛者面前有三扇关闭的门，其中只有一扇后面有名车，而其余的后面是山羊。

游戏规则是，参赛者先选取一扇门，但在他打开之前，主持人在其余两扇门中打开了一扇有山羊的门，并询问参赛者是否改变主意选择另一扇门，以使赢得名车的概率变大。

正确的分析结果是，假如不管开始哪一扇门被选，主持人都打开其余两扇门中有山羊的那一扇并询问参赛者是否改变主意，则改变主意会使赢得汽车的概率增加一倍。

历史

作为数学统计基础的概率论的创始人分别是法国数学家帕斯卡和子硕，其可追溯到公元17世纪。当时的法国宫廷贵族里盛行着掷骰子游戏，游戏规则是玩家连续掷4次骰子，如果其中没有6点出现，玩家赢，如果出现一次6点，则庄家（相当于现在的赌场）赢。按照这一游戏规则，从长期来看，庄家扮演赢家的角色，而玩家大部分时间是输家，因为庄家总是要靠此维生的，而当时人们也接受了这种现象。

后来为了使游戏更刺激，游戏规则发生了些许变化，玩家这回用2个骰子连续掷24次，不同时出现2个6点，玩家赢，否则庄家赢。当时人们普遍认为，2次出现6点的概率是一次出现6点的概率的1 / 6，因此6倍于前一种规则的次数，也既是24次赢或输的概率与以前是相等的。然而事实却并非如此，从长期来看，这回庄家处于输家的状态，于是他们去请教当时的数学家帕斯卡，求助其对这种现象作出解释。

其他对概率论的发展作出重要贡献的人还有荷兰物理、数学家惠更斯，瑞士物理、数学家伯努利，法国数学家棣莫弗，法国数学、天文学家拉普拉斯，德国数学家高斯，法国物理、数学家泊松，意大利数学、医学家卡尔达诺以及苏联数学家柯尔莫哥洛夫。

事件

单位事件、事件空间、随机事件

在一次随机试验中可能发生的不能再细分的结果被称为基本事件，或者称为单位事件，用 $E$ 表示。在随机试验中可能发生的所有单位事件的集合称为事件空间，用 $S$ 来表示。例如在一次掷骰子的随机试验中，如果用获得的点数来表示单位事件，那么一共可能出现 6 个单位事件，则事件空间可以表示为 $S=\{1,2,3,4,5,6\}$ 。

上面的事件空间是由可数有限单位事件组成，事实上还存在着由可数无限以及不可数单位事件组成的事件空间，比如在一次获得正面朝上就停止的随机掷硬币试验中，其事件空间由可数无限单位事件组成，表示为： $S=$ { 正，反正，反反正，反反反正，反反反反正，···}，注意到在这个例子中"反反反正"是单位事件。将两根筷子随意扔向桌面，其静止后所形成的交角假设为 $\alpha$ ，这个随机试验的事件空间的组成可以表示为 $S=\{\alpha |0^{\circ }\leq \alpha <180^{\circ }\}$ 。

随机事件是事件空间 $S$ 的子集，它由事件空间 $S$ 中的单位元素构成，用大写字母 $A,B,C\cdots$ 表示。例如在掷两个骰子的随机试验中，设随机事件 $A$ = “获得的点数和大于10”，则 $A$ 可以由下面 3 个单位事件组成： $A=\{(5,6),(6,5),(6,6)\}$ 。

如果在随机试验中事件空间中的所有可能的单位事件都发生，这个事件被称为必然事件，表示为 $S\subset S$ ；相应的如果事件空间里不包含任何一个单位事件，则称为不可能事件，表示为 $\varnothing \subset S$ 。

事件的计算

因为事件在一定程度上是以集合的含义定义的，因此可以把集合计算方法直接应用于事件的计算，也就是说，在计算过程中，可以把事件当作集合来对待。

$A$ 的补集不属于 $A$ 的事件发生	并集 $A$ ∪ $B$ 或者 $A$ 或者 $B$ 或者 $A,B$ 同时发生	交集 $A$ ∩ $B$ 事件 $A,B$ 同时发生
差集 $A$ \ $B$ 不属于 $B$ 的 $A$ 事件发生	空集 $A$ ∩ $B$ = ∅ $A,B$ 事件不同时发生	子集 $B$ ⊆ $A$ 如 $B$ 发生，则 $A$ 也一定发生

在轮盘游戏中假设 $A$ 代表事件“球落在红色区域”， $B$ 代表事件"球落在黑色区域"，因为事件 $A$ 和 $B$ 没有共同的单位事件，因此可表示为

$A\cap B=\varnothing$

注意到事件 $A$ 和 $B$ 并不是互补的关系，因为在整个事件空间 $S$ 中还有一个单位事件“零”，其即不是红色也不是黑色，而是绿色，因此 $A,B$ 的补集应该分别表示如下：

${\bar {A}}=S\setminus A=B\cup \left\{0\right\}$
${\bar {B}}=S\setminus B=A\cup \left\{0\right\}$

概率的定义

传统概率（古典概率、拉普拉斯概率）

传统概率的定义是由法国数学家拉普拉斯提出的。如果一个随机试验所包含的单位事件是有限的，且每个单位事件发生的可能性均相等，则这个随机试验叫做拉普拉斯试验。在拉普拉斯试验中，事件 $A$ 在事件空间 $S$ 中的概率 $P(A)$ 为：

例如，在一次同时掷一个硬币和一个骰子的随机试验中，假设事件 $A$ 为获得国徽面且点数大于 4 ，那么事件 $A$ 的概率应该有如下计算方法： $S=$ { ( 国徽，1 点 )，( 数字，1 点 )，( 国徽，2 点 )，( 数字，2 点 )，( 国徽，3 点 )，( 数字，3 点 )，( 国徽，4 点 )，( 数字，4 点 )，( 国徽，5 点 )，( 数字，5 点 )，( 国徽，6 点 )，( 数字，6 点 ) }， $A$ ＝{( 国徽，5 点 )，( 国徽，6 点 )}，按照拉普拉斯定义， $A$ 的概率为，

P(A)={\frac {2}{12}}={\frac {1}{6}}

注意到在拉普拉斯试验中存在着若干的疑问，在现实中是否存在着其单位事件的概率具有精确相同的概率值的试验? 因为我们不知道，硬币以及骰子是否完美，即骰子制造的是否均匀，其重心是否位于正中心，以及轮盘是否倾向于某一个数字。尽管如此，传统概率在实践中被广泛应用于确定事件的概率值，其理论根据是：如果没有足够的论据来证明一个事件的概率大于另一个事件的概率，那么可以认为这两个事件的概率值相等。

如果仔细观察这个定义会发现拉普拉斯用概率解释了概率，定义中用了相同的可能性 ( 原文是 également possible )一词，其实指的就是"相同的概率"。这个定义也并没有说出，到底什么是概率，以及如何用数字来确定概率。在现实生活中也有一系列问题，无论如何不能用传统概率定义来解释，比如，人寿保险公司无法确定一个 50 岁的人在下一年将死去的概率。

统计概率

继传统概率论之后，英国逻辑学家约翰·维恩和奥地利数学家理查德提出建立在频率理论基础上的统计概率。他们认为，获得一个事件的概率值的唯一方法是通过对该事件进行 100 次，1000 次或者甚至 10000 次的前后相互独立的 $n$ 次随机试验，针对每次试验均记录下绝对频率值 $h_{n}$ (A)和相对频率值 $f_{n}$ (A)，随着试验次数 $n$ 的增加，会出现如下事实，即相对频率值会趋于稳定，它在一个特定的值上下浮动，也即是说存在着一个极限值 $P(A)$ ，相对频率值趋向于这个极限值。这个极限值被称为统计概率，表示为：

P(A)=\lim _{n\to \infty }f_{n}(A)

例如，若想知道在一次掷骰子的随机试验中获得 6 点的概率值可以对其进行 3000 次前后独立的扔掷试验，在每一次试验后记录下出现 6 点的次数，然后通过计算相对频率值可以得到趋向于某一个数的统计概率值。

扔掷数	获得 6 点的绝对频率	获得 6 点的相对频率
1	1	1.00000
2	1	0.50000
3	1	0.33333
4	1	0.25000
5	2	0.40000
10	2	0.20000
20	5	0.25000
100	12	0.12000
200	39	0.19500
300	46	0.15333
400	72	0.18000
500	76	0.15200
600	102	0.17000
700	120	0.17143
1000	170	0.17000
2000	343	0.17150
3000	506	0.16867

上面提到的这个有关相对频率的经验规律是大数定律在现实生活中的反映，大数定律是初等概率论的基础。统计概率在今天的实践中依然具有重要意义，特别是在初等概率论及数理统计等学科中。

现代概率论

与初等概率论相对的，是“现代概率论”。因测度论的研究与发展，现代概率论得以公理化。一些曾经无法用初等概率论解释的概念因此得以用公理化的语言进行解释，可以说现代概率论以测度论为理论基础终于得以完善，完成了其现代化进程。现代概率论由前苏联数学家柯尔莫哥洛夫于1933年建立公理化。

概率公理

如果一个函数 $P:S\to \mathbb {R} ,\ A\mapsto P(A)$ 指定给每一个事件空间 $S$ 中的事件 $A$ 一个实数 $P(A)$ ，并且其满足下面的 3 个公理，那么函数 $P$ 叫做概率函数，相应的 $P(A)$ 叫做事件 $A$ 的概率。

公理 1：

0\leq P(A)\leq 1\ (A\in S)

事件

A

的概率

P(A)

是一个0与1之间（包含0与1）的非负实数。

公理 2：

P(S)=1

事件空间的概率值为 1 。

公理 3：

P(A\cup B)=P(A)+P(B)

，如果

A\cap B=\varnothing

互斥事件的加法法则。这里需注意：公理3可以推广到可数个互斥事件的并集。

完全概率

$n$ 个事件 $H_{1},H_{2},...H_{n}$ 两两互斥，且共同组成整个事件空间 $S$ ，即
$H_{i}\cap H_{j}=\varnothing$ ， $(i\neq j)$ 以及
$H_{1}\cup H_{2}\cup ...\cup H_{n}=S$
这时 $A$ 的概率可以表示为，

P(A)=\sum _{j=1}^{n}P(A|H_{j})\cdot P(H_{j})

证明：

$A=(A\cap H_{1})\cup (A\cap H_{2})\cup \ldots \cup (A\cap H_{n})$
按照公理 3 ，有
$P(A)=P(A\cap H_{1})+P(A\cap H_{2})+\ldots +P(A\cap H_{n})$
根据乘法法则， $P(A\cap H_{j})=P(A|H_{j})\cdot P(H_{j})$
因此有，
$P(A)=P(A|H_{1})\cdot P(H_{1})+\ldots +P(A|H_{n})\cdot P(H_{n})$
$P(A)=\sum _{j=1}^{n}P(A|H_{j})\cdot P(H_{j})$

例如，一个随机试验工具由一个骰子和一个柜子中的三个抽屉组成，抽屉 1 里有 14 个白球和 6 个黑球，抽屉 2 里有 2 个白球和 8 个黑球，抽屉 3 里有 3 个白球和 7 个黑球，试验规则是首先掷骰子，如果获得小于 4 点，则抽屉 1 被选择，如果获得 4 点或者 5 点，则抽屉 2 被选择，其他情况选择抽屉 3 。然后在选择的抽屉里随机抽出一个球，最后抽出的这个球是白球的概率是：

P(白)=P(白|抽1)·P(抽1)+P(白|抽2)·P(抽2)＋P(白|抽3)·P(抽3)

=(14/20)·(3/6)+(2/10)·(2/6)+(3/10)·(1/6)

=28/60=0.4667

从例子中可看出，完全概率特别适合于分析具有多层结构的随机试验的情况。

贝叶斯定理

贝叶斯定理由英国数学家托马斯·贝叶斯 ( Thomas Bayes 1702-1761 ) 发展，用来描述两个条件概率之间的关系，比如 P(A|B) 和 P(B|A)。按照定理 6 的乘法法则，P(A∩B)=P(A)·P(B|A)=P(B)·P(A|B)，可以立刻导出贝叶斯定理：

P(A\vert B)={\frac {P(B\vert A)\cdot P(A)}{P(B)}}

例如：一座别墅在过去的 20 年里一共发生过 2 次被盗，别墅的主人有一条狗，狗平均每周晚上叫 3 次，在盗贼入侵时狗叫的概率被估计为 0.9，问题是：在狗叫的时候发生入侵的概率是多少？
我们假设 $A$ 事件为狗在晚上叫， $B$ 为盗贼入侵，则 $P(A)=3/7$ ， $P(B)$ =2/(20·365.25)=2/7305，P(A | B) = 0.9，按照公式很容易得出结果：
$P(B\vert A)=0.9\cdot {\frac {2}{7305}}\cdot {\frac {7}{3}}=0.0005749486653...$

另一个例子，现分别有 $A$ ， $B$ 两个容器，在容器 $A$ 里分别有 7 个红球和 3 个白球，在容器 $B$ 里有 1 个红球和 9 个白球，现已知从这两个容器里任意抽出了一个球，且是红球，问这个红球是来自容器 $A$ 的概率是多少?

假设已经抽出红球为事件 $B$ ，从容器 $A$ 里抽出球为事件 $A$ ，则有： $P(B)$ = 8 / 20， $P(A)$ = 1 / 2， $P(B|A)$ = 7 / 10，按照公式，则有：
$P(A\vert B)={\frac {7}{10}}\cdot {\frac {1}{2}}\cdot {\frac {20}{8}}={\frac {7}{8}}$

概率分布

概率论的应用

虽然概率论最早产生于17世纪，然而其公理体系只在20世纪的20至30年代才建立起来并得到迅速发展，在过去的半个世纪里概率论在越来越多的新兴领域显示了它的应用性和实用性，例如：物理、化学、生物、医学、心理学、社会学、政治学、教育学，经济学以及几乎所有的工程学等领域。特别值得一提的是，概率论是今天数理统计的基础，其结果被用做问卷调查的分析资料或者对经济前景进行预测。

参见

参考文献

^ Inferring From Data. [2016-10-18]. （原始内容存档于2020-11-27）.

（德文）彼得缺菲尔 ( Peter Zoefel )：《统计和经济学家》 PEASON Studium 出版社 2003 年 ISBN 3-8273-7062-0
（德文）约瑟夫西拉 ( Josef Schira )：《统计理论与企业管理》 PEASON Studium 出版社 2003 年 ISBN 3-8273-7041-8
（德文）汉斯－底特黑伯曼 ( Hans-Dieter Hippmann )：《统计学》 SCHAEFFER POESCHEL 出版社 2003 年 ISBN 3-7910-2119-2
（德文）里波舒尔茨 ( Seymour Lipschutz )：《概率计算－理论和应用》 McGRAW-HILL BOOK COMPANY GmbH 出版社 1980 年 ISBN 0-07-084361-9
（德文）贝尔等 ( Beyer，Hackel，Pieper，Tiedge )《概率计算和数学统计》 Harri Deutsch 出版社 1980 年 ISBN 3-87144-433-2

[1] Inferring From Data. [2016-10-18]. （原始内容存档于2020-11-27）.

[1]