“
均方差”重定向至此。关于均方误差(MSE),详见“
均方误差”;关于均方根误差(RMSE),详见“
均方根误差”。
标准差,又称标准偏差、均方差 (英语:standard deviation,缩写SD,符号σ),在概率统计中最常使用作为测量一组数值的离散程度之用。标准差定义:为方差开算术平方根,反映组内个体间的离散程度;标准差与期望之比为标准离差率。测量到分布程度的结果,原则上具有两种性质:
- 为非负数值(因为平方后再做平方根);
- 与测量资料具有相同单位(这样才能比对)。
一个总量的标准差或一个随机变量的标准差,及一个子集合样品数的标准差之间,有所差别。其公式如下所列。
标准差的概念由卡尔·皮尔逊引入到统计中。
阐述及应用
简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
例如,两组数的集合{0, 5, 9, 14}和{5, 6, 8, 9}其平均值都是7,但第二个集合具有较小的标准差。
表述“相差 个标准差”,即在 的样本(sample)范围内考量。
标准差可以当作不确定性的一种测量。例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。
标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越小,代表回报较为稳定,风险亦较小。
总体的标准差
基本定义
-
为平均值。
简化计算公式
上述公式可以如下代换而简化:
-
所以:
-
根号里面,亦即方差( )的简易口诀为:“平方的平均”减去“平均的平方”。
总体为随机变量
一随机变量 的标准差定义为:
-
须注意并非所有随机变量都具有标准差,因为有些随机变量不存在期望。
如果随机变量 为 具有相同概率,则可用上述公式计算标准差。
离散随机变量的标准差
若 是由实数 构成的离散随机变量(英语:discrete random variable),且每个值的概率相等,则 的标准差定义为:
- ,其中
换成用 来写,就成为:
- ,其中
目前为止,与总体标准差的基本公式一致。
然而若每个 可以有不同概率 ,则 的标准差定义为:
- ,其中
这里, 为 的数学期望。
连续随机变量的标准差
若 为概率密度 的连续随机变量(英语:continuous random variable),则 的标准差定义为:
-
其中 为 的数学期望:
-
标准差的特殊性质
对于常数 和随机变量 和 :
-
-
-
- 其中:
- 表示随机变量 和 的协方差。
- 表示 ,即 ( 的方差),对 亦同。
样本的标准差
范例
这里示范如何计算一组数的标准差。例如一群孩童年龄的数值为{5, 6, 8, 9}:
- 第一步,计算平均值 ︰
-
- 当 (因为集合里有4个数),分别设为:
-
则平均值为
-
- 第二步,计算标准差 ︰
-
正态分布的规则
标准差与平均值之间的关系
几何学解释
从几何学的角度出发,标准差可以理解为一个从 维空间的一个点到一条直线的距离的函数。举一个简单的例子,一组数据中有3个值, 。它们可以在3维空间中确定一个点 。想像一条通过原点的直线 。如果这组数据中的3个值都相等,则点 就是直线 上的一个点, 到 的距离为0,所以标准差也为0。若这3个值不都相等,过点 作垂线 垂直于 , 交 于点 ,则 的坐标为这3个值的平均数:
-
运用一些代数知识,不难发现点 与点 之间的距离(也就是点 到直线 的距离)是 。在 维空间中,这个规律同样适用,把 换成 就可以了。
参考文献
外部链接