广义最小二乘法 (英语:generalized least squares,GLS )是统计学 中的一个方法,当回归模型中的残差之间存在一定程度的相关性时,它可以被用于估计线性回归模型中的未知参数。最小二乘法和加权最小二乘法可能需要提高统计效率并防止误导性推论。GLS由新西兰数学家亚历山大·艾特肯(Alexander Aitken)于1935年首次描述。
概述
在一个标准线性回归 中,有数据组
{
y
i
,
x
i
j
}
i
=
1
,
…
,
n
,
j
=
2
,
…
,
k
{\displaystyle \{y_{i},x_{ij}\}_{i=1,\dots ,n,j=2,\dots ,k}}
因变量有:
y
≡
(
y
1
⋮
y
n
)
,
{\displaystyle \mathbf {y} \equiv {\begin{pmatrix}y_{1}\\\vdots \\y_{n}\end{pmatrix}},}
预测变量被放入了如下的设计矩阵
X
≡
(
1
x
12
x
13
⋯
x
1
k
1
x
22
x
23
⋯
x
2
k
⋮
⋮
⋮
⋱
⋮
1
x
n
2
x
n
3
⋯
x
n
k
)
,
{\displaystyle \mathbf {X} \equiv {\begin{pmatrix}1&x_{12}&x_{13}&\cdots &x_{1k}\\1&x_{22}&x_{23}&\cdots &x_{2k}\\\vdots &\vdots &\vdots &\ddots &\vdots \\1&x_{n2}&x_{n3}&\cdots &x_{nk}\end{pmatrix}},}
这里每行是一个有
k
{\displaystyle k}
预测变量的向量,每行对应第
i
{\displaystyle i}
个数据点。这个模型假设
y
{\displaystyle \mathbf {y} }
在
X
{\displaystyle \mathbf {X} }
下的的条件均值将会是
X
{\displaystyle \mathbf {X} }
的线性函数,且在
X
{\displaystyle \mathbf {X} }
下的方差是一个非奇异方差矩阵
Ω
{\displaystyle \mathbf {\Omega } }
,有
y
=
X
β
+
ε
,
E
[
ε
∣
X
]
=
0
,
Cov
[
ε
∣
X
]
=
Ω
,
{\displaystyle \mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},\quad \operatorname {E} [{\boldsymbol {\varepsilon }}\mid \mathbf {X} ]=0,\quad \operatorname {Cov} [{\boldsymbol {\varepsilon }}\mid \mathbf {X} ]={\boldsymbol {\Omega }},}
这里
β
∈
R
k
{\displaystyle {\boldsymbol {\beta }}\in \mathbb {R} ^{k}}
是一个含有未知常数的矩阵,称为回归系数 (regression coefficients),它们从回归中预测得到。如果
b
{\displaystyle \mathbf {b} }
是
β
{\displaystyle {\boldsymbol {\beta }}}
可能的值,则对
b
{\displaystyle \mathbf {b} }
的残余值是
y
−
X
b
{\displaystyle \mathbf {y} -\mathbf {X} \mathbf {b} }
。广义最小二乘法通过最小化马哈拉诺比斯距离 来预测
β
{\displaystyle {\boldsymbol {\beta }}}
:
β
^
=
argmin
b
(
y
−
X
b
)
T
Ω
−
1
(
y
−
X
b
)
=
argmin
b
y
T
Ω
−
1
y
+
(
X
b
)
T
Ω
−
1
X
b
−
y
T
Ω
−
1
X
b
−
(
X
b
)
T
Ω
−
1
y
,
{\displaystyle {\begin{aligned}{\hat {\boldsymbol {\beta }}}&={\underset {\mathbf {b} }{\operatorname {argmin} }}\,(\mathbf {y} -\mathbf {X} \mathbf {b} )^{\mathrm {T} }\mathbf {\Omega } ^{-1}(\mathbf {y} -\mathbf {X} \mathbf {b} )\\&={\underset {\mathbf {b} }{\operatorname {argmin} }}\,\mathbf {y} ^{\mathrm {T} }\,\mathbf {\Omega } ^{-1}\mathbf {y} +(\mathbf {X} \mathbf {b} )^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} \mathbf {b} -\mathbf {y} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} \mathbf {b} -(\mathbf {X} \mathbf {b} )^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {y} \,,\end{aligned}}}
相当于
β
^
=
argmin
b
y
T
Ω
−
1
y
+
b
T
X
T
Ω
−
1
X
b
−
2
b
T
X
T
Ω
−
1
y
,
{\displaystyle {\hat {\boldsymbol {\beta }}}={\underset {\mathbf {b} }{\operatorname {argmin} }}\,\mathbf {y} ^{\mathrm {T} }\,\mathbf {\Omega } ^{-1}\mathbf {y} +\mathbf {b} ^{\mathrm {T} }\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} \mathbf {b} -2\mathbf {b} ^{\mathrm {T} }\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {y} ,}
这是一个二次规划 问题。目标函数的驻点出现在以下情况:
2
X
T
Ω
−
1
X
b
−
2
X
T
Ω
−
1
y
=
0
,
{\displaystyle 2\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} {\mathbf {b} }-2\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {y} =0,}
所以:
β
^
=
(
X
T
Ω
−
1
X
)
−
1
X
T
Ω
−
1
y
.
{\displaystyle {\hat {\boldsymbol {\beta }}}=\left(\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {y} .}
数量
Ω
−
1
{\displaystyle \mathbf {\Omega } ^{-1}}
称为精度矩阵(或分散矩阵),是对角权重矩阵的推广。