T-標準化

統計學中,對一個樣本統計量進行t-標準化(studentization,或直譯為「學生化」)一般是指將其中心化之後,除以自身的標準差的變換方式。

廣義的t-標準化,是指用其他樣本矩來除該統計量。

t-標準化與標準化(standarization)最重要的區別是,標準化用真實的總體參數作除數,而t-標準化用可以觀測到的樣本統計量作除數。一般而言,標準化需要假設較多的已知信息。

例子

  • 在對位置-尺度參數族的分布之總體均值進行估計的時候,經常用尺度參數的估計量來標準化位置參數的估計量。

例如,在估計正態分布   的位置參數   時,常用尺度參數   的估計量來t-標準化位置參數的估計量,即:

 

其中   是樣本方差,注意應該用   整體(又稱「標準誤差」)而不是   來估計   的標準差。在這個例子裡,如果對   進行估計,並估計量的立方根代替   之表達式中的   ,那麼就做成一個廣義的t-標準化。如果用真實的   代替  ,那麼就做成一個標準化

  • 對一般的參數估計,也可以進行t-標準化,例如總體分布具有參數   ,這裡   既可以是一個參數模型的參數,例如 Exp  中的   ,也可以是一個非參數模型的泛函,例如一個所有矩存在的非參數模型的總體平均、總體方差等,可以考慮如下的t-標準化:
 

分母的平方是對   的良好估計,這個估計一般不容易得到,通行的做法是用一個經過仔細設計的重抽樣方法做這個方差估計,例如Bootstrap、Jackknife等。

意義

t-標準化具有以下重要意義:

  • 標準化所得到的估計量,其分布不再、或更少地依賴於總體分布的尺度參數。這樣可以方便地進行統計推斷,例如設計置信區間和統計檢驗。[1][2]
  • Bootstrap方法中,t-標準化具有特殊的重要意義。對經過t-標準化的統計量進行bootstrap,以更高階的精確度對被估計的參數進行統計推斷(如更精確地控制置信區間的置信水平,及更好地控制統計檢驗中的第一類錯誤概率),而對未經標準化的統計量直接進行bootstrap則只能有低階精確度的統計推斷。[3]

不足

  • 一般來說,t-標準化需要一個能夠很好地估計待標準化統計量某個矩的估計量,設計這個估計量有時是很困難的,例如:觀測到的是網絡數據、或觀測量間不是互相獨立的(例如時間序列數據)。
  • 除開簡單的例子(例如正態分布),t-標準化後的統計量,其分布未必是容易計算或逼近的。

參考文獻

  1. ^ Beran, Rudolf. Prepivoting Test Statistics: A Bootstrap View of Asymptotic Refinements. Journal of the American Statistical Association. 1988-09, 83 (403): 687. doi:10.2307/2289292. 
  2. ^ Beran, Rudolf. Prepivoting to Reduce Level Error of Confidence Sets. Biometrika. 1987-09, 74 (3): 457. doi:10.2307/2336685. 
  3. ^ Larry Wasserman. All of nonparametric statistics. Springer. ISBN 978-1-4419-2044-7.