可对角化矩阵 是可化简为对角矩阵 的方阵 。矩阵对角化后大幅降低了某些属性的计算难度,比如其行列式 就是对角线上所有数字的乘积,而对角线上的数字就是其特征值 。
线性代数
A
=
[
1
2
3
4
]
{\displaystyle \mathbf {A} ={\begin{bmatrix}1&2\\3&4\end{bmatrix}}}
向量 · 向量空间 · 基底 · 行列式 · 矩阵
可对角化也使该线性变换的几何意义更直观,因为每个线性变换 都可以对应到一个矩阵,所以将矩阵对角化等价于找到一组基底 ,使的线性变换的作用仅仅是伸缩基底向量而已。类似的,若用对角矩阵表示差分方程组或者微分方程组的系数的话,这样每条等式只含有一个未知函数,这样也大幅度了化简了方程式的难度。
若尔当-谢瓦莱分解 表达一个算子为它的对角部分与它的幂零 部分的和。
正式定义
可对角化的线性映射
特征化
关于可对角化映射和矩阵的基本事实可表达为如下:
在域 F 上的 n × n 矩阵 A 是可对角化的,当且仅当它的特征空间的和的维度等于 n ,它为真当且仅当存在由 A 的特征向量组成的 F n 的基 。如果找到了这样的基,可以形成有基向量 作为纵列的矩阵 P ,而 P -1 AP 将是对角矩阵。这个矩阵的对角元素是 A 的特征值。
线性映射 T : V → V 是可对角化的,当且仅当它的特征空间的维度等于 dim(V ),它为真当且仅当存在由 T 的特征向量组成的 V 的基。T 关于这个基将表示为对角矩阵。这个矩阵的对角元素是 T 的特征值。
另一个特征化: 矩阵或线性映射在域 F 上可对角化的,当且仅当它的极小多项式 在 F 上有不同的线性因子。
下列充分(但非必要)条件经常是有用的。
n × n 矩阵 A 只在域 F 上可对角化的,如果它在 F 中有 n 个不同的特征值,就是说,如果它的特征多项式 在 F 中有 n 个不同的根。
线性映射 T : V → V 带有 n =dim(V ) 是可对角化的,如果它有 n 个不同的特征值,就是说它的特征多项式在 F 中有 n 个不同的根。
作为经验规则,在复数域 C 上几乎所有矩阵都是可对角化的。更精确地说: 在 C 上不可对角化的复数 n × n 矩阵的集合被当作 C n ×n 的子集,它是关于勒贝格测度 的零集 。也可以说可对角化矩阵形成了关于 扎里斯基拓扑 的稠密子集 : 补位于特征多项式的判别式 变为零的集合内,后者是超平面 。从中得出的还有在平常的(强拓扑)中密度由范数 给出。
对于 R 域就不是这样了。随着 n 增长,随机选择的实数矩阵是在 R 上可对角化的可能性越来越小。
例子
可对角化矩阵
对合 在实数上(甚至特征不是 2 的任何域)是可对角化的,带有 1 和 -1 在对角线上。
有限阶自同态(包括对合)是在复数,或域的特征不整除自同态的阶的任何代数闭合域(因为单位一的根是不同的)是可对角化的,带有单位根 在对角线上。这是循环群的表示理论 的一部分。
投影 是可对角化的,带有 0 和 1 在对角线上。
非可对角化的矩阵
某些矩阵在任何域上都是不可对角化的,最著名的是幂零 矩阵。如果特征值的几何重次 和代数重次 不一致,这会更一般的出现。例如考虑
C
=
[
0
1
0
0
]
{\displaystyle C={\begin{bmatrix}0&1\\0&0\end{bmatrix}}}
这个矩阵是不可对角化的: 没有矩阵 U 使得
U
−
1
C
U
{\displaystyle U^{-1}CU}
是对角矩阵。实际上,C 有一个特征值(就是零)而这个特征值有代数重次 2 和几何重次 1。
某些实数矩阵在实数上是不可对角化的。例如考虑
B
=
[
0
1
−
1
0
]
{\displaystyle B={\begin{bmatrix}0&1\\-1&0\end{bmatrix}}}
矩阵 B 没有任何实数特征值,所以没有实数矩阵 Q 使得
Q
−
1
B
Q
{\displaystyle Q^{-1}BQ}
是对角矩阵。但是如果允许复数的话 ,
B
{\displaystyle B}
仍可以对角化。实际上,如果我们取
Q
=
[
1
i
i
1
]
{\displaystyle Q={\begin{bmatrix}1&{\textrm {i}}\\{\textrm {i}}&1\end{bmatrix}}}
则
Q
−
1
B
Q
{\displaystyle Q^{-1}BQ}
是对角的。
矩阵对角化的方法
考虑矩阵
A
=
[
1
2
0
0
3
0
2
−
4
2
]
{\displaystyle A={\begin{bmatrix}1&2&0\\0&3&0\\2&-4&2\end{bmatrix}}}
这个矩阵有特征值
λ
1
=
3
,
λ
2
=
2
,
λ
3
=
1
{\displaystyle \lambda _{1}=3,\quad \lambda _{2}=2,\quad \lambda _{3}=1}
所以 A 是有三个不同特征值的 3 × 3 矩阵,所以它是可对角化的。
如果我们要对角化 A ,我们需要计算对应的特征向量 。它们是
v
1
=
[
−
1
−
1
2
]
v
2
=
[
0
0
1
]
v
3
=
[
−
1
0
2
]
{\displaystyle v_{1}={\begin{bmatrix}-1\\-1\\2\end{bmatrix}}\quad v_{2}={\begin{bmatrix}0\\0\\1\end{bmatrix}}\quad v_{3}={\begin{bmatrix}-1\\0\\2\end{bmatrix}}}
我们可以轻易的验证
A
v
k
=
λ
k
v
k
{\displaystyle Av_{k}=\lambda _{k}v_{k}}
。
现在,设 P 是由这些特征向量作为纵列的矩阵:
P
=
[
−
1
0
−
1
−
1
0
0
2
1
2
]
{\displaystyle P={\begin{bmatrix}-1&0&-1\\-1&0&0\\2&1&2\end{bmatrix}}}
则 P 对角化了 A ,简单的计算可验证:
P
−
1
A
P
=
[
0
−
1
0
2
0
1
−
1
1
0
]
[
1
2
0
0
3
0
2
−
4
2
]
[
−
1
0
−
1
−
1
0
0
2
1
2
]
=
[
3
0
0
0
2
0
0
0
1
]
{\displaystyle P^{-1}AP={\begin{bmatrix}0&-1&0\\2&0&1\\-1&1&0\end{bmatrix}}{\begin{bmatrix}1&2&0\\0&3&0\\2&-4&2\end{bmatrix}}{\begin{bmatrix}-1&0&-1\\-1&0&0\\2&1&2\end{bmatrix}}={\begin{bmatrix}3&0&0\\0&2&0\\0&0&1\end{bmatrix}}}
注意特征值
λ
k
{\displaystyle \lambda _{k}}
出现在对角矩阵中。
应用
对角化可被用来有效的计算矩阵 A 的幂,假如矩阵是可对角化的。比如我们找到了
P
−
1
A
P
=
D
{\displaystyle P^{-1}AP=D\ }
是对角矩阵,因为矩阵的积是结合的,
A
k
=
(
P
D
P
−
1
)
k
=
(
P
D
P
−
1
)
⋅
(
P
D
P
−
1
)
⋯
(
P
D
P
−
1
)
=
P
D
(
P
−
1
P
)
D
(
P
−
1
P
)
⋯
(
P
−
1
P
)
D
P
−
1
=
P
D
k
P
−
1
{\displaystyle {\begin{aligned}A^{k}&=(PDP^{-1})^{k}=(PDP^{-1})\cdot (PDP^{-1})\cdots (PDP^{-1})\\&=PD(P^{-1}P)D(P^{-1}P)\cdots (P^{-1}P)DP^{-1}=PD^{k}P^{-1}\end{aligned}}}
而后者容易计算,因为它只涉及对角矩阵的幂。
在找到线性递归序列 比如斐波那契数列 的项的闭合形式的表达中这是非常有用的。
特定应用
例如,考虑下列矩阵:
M
=
[
a
b
−
a
0
b
]
{\displaystyle M={\begin{bmatrix}a&b-a\\0&b\end{bmatrix}}}
计算 M 个各次幂揭示了一个惊人的模式:
M
2
=
[
a
2
b
2
−
a
2
0
b
2
]
,
M
3
=
[
a
3
b
3
−
a
3
0
b
3
]
,
M
4
=
[
a
4
b
4
−
a
4
0
b
4
]
,
…
{\displaystyle M^{2}={\begin{bmatrix}a^{2}&b^{2}-a^{2}\\0&b^{2}\end{bmatrix}},\quad M^{3}={\begin{bmatrix}a^{3}&b^{3}-a^{3}\\0&b^{3}\end{bmatrix}},\quad M^{4}={\begin{bmatrix}a^{4}&b^{4}-a^{4}\\0&b^{4}\end{bmatrix}},\quad \ldots }
上面的现象可以通过对角化 M 来解释。要如此我们需要由 M 的特征向量组成的 R 2 的基。一个这样的特征向量基给出自
u
=
[
1
0
]
=
e
1
,
v
=
[
1
1
]
=
e
1
+
e
2
{\displaystyle \mathbf {u} ={\begin{bmatrix}1\\0\end{bmatrix}}=\mathbf {e} _{1},\quad \mathbf {v} ={\begin{bmatrix}1\\1\end{bmatrix}}=\mathbf {e} _{1}+\mathbf {e} _{2}}
这里的 e i 指示 R n 的标准基。
逆的基变更 给出自
e
1
=
u
,
e
2
=
v
−
u
{\displaystyle \mathbf {e} _{1}=\mathbf {u} ,\qquad \mathbf {e} _{2}=\mathbf {v} -\mathbf {u} }
直接计算证实
M
u
=
a
u
,
M
v
=
b
v
{\displaystyle M\mathbf {u} =a\mathbf {u} ,\qquad M\mathbf {v} =b\mathbf {v} }
所以,a 和 b 是分别是对应于 u 和 v 的特征值。
根据矩阵乘法的线性,我们有
M
n
u
=
a
n
u
,
M
n
v
=
b
n
v
{\displaystyle M^{n}\mathbf {u} =a^{n}\,\mathbf {u} ,\qquad M^{n}\mathbf {v} =b^{n}\,\mathbf {v} }
切换回标准基,我们有
M
n
e
1
=
M
n
u
=
a
n
e
1
{\displaystyle M^{n}\mathbf {e} _{1}=M^{n}\mathbf {u} =a^{n}\mathbf {e} _{1}}
M
n
e
2
=
M
n
(
v
−
u
)
=
b
n
v
−
a
n
u
=
(
b
n
−
a
n
)
e
1
+
b
n
e
2
{\displaystyle M^{n}\mathbf {e} _{2}=M^{n}(\mathbf {v} -\mathbf {u} )=b^{n}\mathbf {v} -a^{n}\mathbf {u} =(b^{n}-a^{n})\mathbf {e} _{1}+b^{n}\mathbf {e} _{2}}
前面的关系用矩阵形式表达为
M
n
=
[
a
n
b
n
−
a
n
0
b
n
]
{\displaystyle M^{n}={\begin{bmatrix}a^{n}&b^{n}-a^{n}\\0&b^{n}\end{bmatrix}}}
因此解释了上述现象。
参见
外部链接
引用