T-标准化
在统计学中,对一个样本统计量进行t-标准化(studentization,或直译为“学生化”)一般是指将其中心化之后,除以自身的标准差的变换方式。
广义的t-标准化,是指用其他样本矩来除该统计量。
t-标准化与标准化(standarization)最重要的区别是,标准化用真实的总体参数作除数,而t-标准化用可以观测到的样本统计量作除数。一般而言,标准化需要假设较多的已知信息。
例子
- 在对位置-尺度参数族的分布之总体均值进行估计的时候,经常用尺度参数的估计量来标准化位置参数的估计量。
例如,在估计正态分布 的位置参数 时,常用尺度参数 的估计量来t-标准化位置参数的估计量,即:
其中 是样本方差,注意应该用 整体(又称“标准误差”)而不是 来估计 的标准差。在这个例子里,如果对 进行估计,并估计量的立方根代替 之表达式中的 ,那么就做成一个广义的t-标准化。如果用真实的 代替 ,那么就做成一个标准化。
- 对一般的参数估计,也可以进行t-标准化,例如总体分布具有参数 ,这里 既可以是一个参数模型的参数,例如 Exp 中的 ,也可以是一个非参数模型的泛函,例如一个所有矩存在的非参数模型的总体平均、总体方差等,可以考虑如下的t-标准化:
分母的平方是对 的良好估计,这个估计一般不容易得到,通行的做法是用一个经过仔细设计的重抽样方法做这个方差估计,例如Bootstrap、Jackknife等。
意义
t-标准化具有以下重要意义:
- 在Bootstrap方法中,t-标准化具有特殊的重要意义。对经过t-标准化的统计量进行bootstrap,以更高阶的精确度对被估计的参数进行统计推断(如更精确地控制置信区间的置信水平,及更好地控制统计检验中的第一类错误概率),而对未经标准化的统计量直接进行bootstrap则只能有低阶精确度的统计推断。[3]
不足
- 一般来说,t-标准化需要一个能够很好地估计待标准化统计量某个矩的估计量,设计这个估计量有时是很困难的,例如:观测到的是网络数据、或观测量间不是互相独立的(例如时间序列数据)。
- 除开简单的例子(例如正态分布),t-标准化后的统计量,其分布未必是容易计算或逼近的。
参考文献
- ^ Beran, Rudolf. Prepivoting Test Statistics: A Bootstrap View of Asymptotic Refinements. Journal of the American Statistical Association. 1988-09, 83 (403): 687. doi:10.2307/2289292.
- ^ Beran, Rudolf. Prepivoting to Reduce Level Error of Confidence Sets. Biometrika. 1987-09, 74 (3): 457. doi:10.2307/2336685.
- ^ Larry Wasserman. All of nonparametric statistics. Springer. ISBN 978-1-4419-2044-7.