誤差

統計概念

統計學最佳化中,誤差(error)和殘差(residual)是兩個相近但有區別的概念,二者均是統計樣本中某一元素的觀測值英語observed value與其「真值」(未必可直接觀測得到)之間的離差的度量。觀察誤差是觀測值與相關量(例如總體平均值)的真值之間的差值。殘差是觀測值與統計量的估計值(例如樣本均值)之間的差值。這種區別在迴歸分析中至關重要,迴歸分析中,這些概念有時稱為迴歸誤差(regression errors)和迴歸殘差(regression residuals),它們引出了學生化殘差英語studentized residual的概念。

計量經濟學中,誤差也稱為擾動(disturbances)。[1][2][3]

簡介

假設有一系列取自單變量分佈英語univariate distribution的觀察結果,我們想要估計該分佈的平均值。此時,誤差是觀測值與總體均值的偏差,而殘差是觀測值與樣本均值的偏差。

統計誤差(statistical error)是觀察值與其期望值的差異程度,而期望值基於隨機選擇統計單位的總體。例如,如果21歲男性的平均身高為1.75米,而隨機選出的一名男性身高為1.80米,則「誤差」為0.05米;如果隨機選出男性人身高1.70米,則「誤差」為-0.05 米。期望值是整個總體的均值,通常是無法觀測的,因此統計誤差也無從知曉。

殘差(residual)是對無法觀測的統計誤差的可觀測估計。在上述的男性身高的例子中,假設我們隨機抽取n個人作為樣本。樣本均值可以很好地估計總體均值。此時:

  • 樣本中每個人的身高與無法觀測的總體均值之間的差值是統計誤差,
  • 樣本中每個人的身高與可觀測的樣本均值之間的差值是殘差。

注意,由於樣本均值的定義,隨機樣本內的殘差之和必然為零,因此殘差必然不是相互獨立的。而統計誤差是獨立的,它們在隨機樣本中的總和幾乎肯定不為零。

統計誤差(尤其是正態分佈的)的數值可以用標準分數(或「z分數」)來標準化,而殘差可以用t統計量英語t-statistic,或更一般的學生化殘差英語studentized residuals來標準化。

單變量分佈

假定有一個均值為μ標準差σ正態分佈總體,從中隨機選擇個體,得到樣本:

 

樣本均值

 

它是一個隨機變量分佈,服從:

 

其統計誤差為:

 

期望值為0,[4]而殘差為:

 

統計誤差的平方和除以σ2,得到自由度n的卡方分佈:

 

然而,因為總體均值未知,這個數量是不可觀測的。但是,殘差的平方和是可觀測的。該總和除以σ2的商是n - 1自由度的卡方分佈:

 

自由度nn - 1之間的區別是對總體(均值、方差未知)的方差估計值的貝塞爾校正英語Bessel's correction。若總體均值已知,則無需進行校正。

參見

參考文獻

  1. ^ Kennedy, P. A Guide to Econometrics. Wiley. 2008: 576 [2022-05-13]. ISBN 978-1-4051-8257-7. (原始內容存檔於2022-07-12). 
  2. ^ Wooldridge, J.M. Introductory Econometrics: A Modern Approach. Cengage Learning. 2019: 57 [2022-05-13]. ISBN 978-1-337-67133-0. (原始內容存檔於2022-07-12). 
  3. ^ Das, P. Econometrics in Theory and Practice: Analysis of Cross Section, Time Series and Panel Data with Stata 15.1. Springer Singapore. 2019: 7 [2022-05-13]. ISBN 978-981-329-019-8. (原始內容存檔於2022-07-12). 
  4. ^ Wetherill, G. Barrie. Intermediate statistical methods . London: Chapman and Hall. 1981. ISBN 0-412-16440-X. OCLC 7779780. 

外部連結