特征向量的推广

Matlab(以及很多支持矩阵运算的编程语言)里,知道了一个方阵的特征值,怎么计算特征向量? 有一个比较形象的解决方案:

null(A-c.*I)

其中$A$表示矩阵,$c$表示一个特征值,$I$表示单位矩阵。(这篇博客里讨论的线性空间都是有限维线性空间$V$,讨论域$\mathbb{F}$。) 这个办法可能有点笨,但它解释了一个简单的概念。一个矩阵指定特征值的特征向量,正好是一个特殊线性变换的核。只需要注意下面的等式:

\[
\text{ker}(\mathscr{A}-c\mathscr{I})=\{\alpha|(\mathscr{A}-c\mathscr{I})\alpha=0\}
\]

但是有一点很有意思: $\lambda-c$又是一个多项式。这就引导我们通过线性变换多项式的核这一概念推广特征子空间和特征向量。

对多项式形式$f\in\mathbb{F}[\lambda]$,记
\[
\text{ker}(f)=\{\alpha\in{V}|f(\mathscr{A})\alpha=0\}
\]
为属于$f$的广义特征子空间,其中的向量称为广义特征向量。结合线性空间和多项式的若干性质,不难得到如下几个基本结论。

性质1: 设$f,g\in\mathbb{F}[\lambda]$,$m=m(\lambda)$是$\mathscr{A}$的极小多项式,则有如下结论:

  1. $\text{ker}(1)=0$,$\text{ker}(m)=V$
  2. 若$g|f$,那么$\text{ker}(g)\subset\text{ker}(f)$
  3. $\text{ker}(f)\cap\text{ker}(g)=\text{ker}(\text{gcd}(f,g))$
  4. $\text{ker}(f)+\text{ker}(g)=\text{ker}(\text{lcm}(f,g))$
  5. 若$\text{gcd}(f,g)=1$,那么$\text{ker}(fg)=\text{ker}(f)\oplus\text{ker}(g)$

应该注意到,多项式的加法、乘法、最小公倍数、最大公因子等与线性空间子空间的基本性质在这里是互相融洽的。

空间准素分解——基于极小多项式的广义特征子空间分解

再说一下最常见的特征值分解。这个分解主要是通过解特征多项式的根,找到一组特征向量构成的基,得到对角形。Cayley-Hamilton定理告诉我们,特征多项式是一个零化多项式。也就是说,设$\mathscr{A}:V\to{V}$,$f$是$\mathscr{A}$的特征多项式,那么对于$\alpha\in{V}$,有$f(\mathscr{A})\alpha=0$。

满足$g(\mathscr{A})\alpha=0(\alpha\in{V})$的多项式$g(\lambda)$称为零化多项式,全体零化多项式中次数最低的首一多项式(最高次数项系数为$1$)称为极小多项式,记为$m(\lambda)$。不难验证,对于任一零化多项式$g(\lambda)$,都有$m(\lambda)|g(\lambda)$,也就是说,$g(\lambda)=m(\lambda)n(\lambda)$,其中$n(\lambda)$是一个多项式(次数可能为$0$)。而$m(\lambda)$的存在性与唯一性也可以很容易得到证明.

准素分解就是通过对极小多项式进行分解得到的,和循环分解类似,是一个很稳定的分解.

接下来我们回顾一下多项式的一个基本性质:

域$\mathbb{F}$上任一非常数多项式$f\in\mathbb{F}[X]$均可以唯一分解成不可约多项式乘积,即
\[
f=p_1p_2\cdots{}p_m
\]
其中$p_i$是不可约多项式,且是唯一的(不考虑常数和次序)。对于$i\neq{j}$,一定有$\text{gcd}(p_i,p_j)=1$.

那么我们就可以唯一分解$m$了。不妨设$m(\lambda)=\prod_{i=1}^{s}p_i(\lambda)^{r_i}$。又设$W_i=\text{ker}(p_i^{r_i})$,那么根据性质1,$V$就可以唯一分解(不考虑次序)成

\[
V=W_1\oplus W_2\oplus\cdots\oplus W_s.
\]

而且不难验证,$W_i$是$\mathscr{A}$的不变子空间。此即准素分解。总而言之,将一个线性变换的极小多项式分解成互质因子的乘积,将整个线性空间分解成这些多项式因子的核的直和,即为准素分解.

矩阵的准素标准形

现已将$V$分解成几个子空间的直和。如果分别在这几个子空间选取一组基,合成$V$的基,就能得到准素标准形。具体地说,

存在$\mathbb{F}$上的可逆矩阵$P$使得$A=P\text{diag}(A_1,\cdots,A_s)P^{-1}$.

其中$A_i$就是$\mathscr{A}$限制在$W_i$上的线性变换的矩阵。这里的基的选择是任意的,但是得到的准对角矩阵又是怎样的性质? 接下来从极小多项式和特征多项式入手。

准素分解与极小多项式


我们肯定希望这样的分解比较”干净”。根据极小多项式分解子空间,那么子空间的性质也应该和极小多项式的分解相融洽。也就是说,

$\mathscr{A}_i=\mathscr{A}\vert_{W_i}$的极小多项式为$p_i(\lambda)^{r_i}$.

下面给出证明。


因为$W_i=\text{ker}(p_i^{r_i})$,对$\alpha\in{W_i}$,一定有$p_i(\mathscr{A}_i)^{r_i}=0$,也就是说,$p_i(\lambda)^{r_i}$一定是$\mathscr{A}_i$的零化多项式。

如果$r_i=1$,考虑到$p_i$不可约,那么已经有$p_i(\lambda)^{r_i}$是$\mathscr{A}_i$的极小多项式。对于$r_i>1$,只需要证明$p_i^{r_i-1}$不是零化多项式,也就是说,证明$\text{ker}(p_i^{r_i})\neq\text{ker}(p_i^{r_i-1})$

设$q=m/p_i^{r_i}$。那么$q$和$p_i^{r_i-1}$互质。假设$W_i=\text{ker}(p_i^{r_i-1})$,那么一定有 \begin{equation} \begin{aligned} \text{ker}(p_i^{r_i-1}q)&=W_i\oplus\text{ker}(q) \\
&=W_i\oplus(W_1\oplus\cdots\oplus W_{i-1}\oplus W_{i+1}\oplus\cdots\oplus W_s )\\
&=V \end{aligned} \end{equation}

但是注意到$\text{deg}(p_i^{r_i-1}q)<\text{deg}(m)$,$\text{ker}(m)=V$,这和$m$的唯一性矛盾。命题得证。

准素分解和特征多项式

这篇博客里我们指出,一个线性变换的特征多项式和极小多项式有着相同的不可约因子。也就是说,对于本文中提到的极小多项式,一定有正整数$d_1,d_2,\cdots,d_s$使得$f(\lambda)=\prod_{i=1}^{s}p_i(\lambda)^{d_i}$,其中$d_i\geq r_i$。有意思的是,特征多项式的分解也和准素分解的子空间相洽.

$\mathscr{A}_i$的特征多项式是$p_i(\lambda)^{d_i}$

我们讨论准对角矩阵$B=\text{diag}(A_1,\cdots,A_s)$的特征多项式,因为这和$A$的特征多项式是相等的(为什么?).

直接计算特征多项式,有
\[
|\lambda{I}-B|=|\lambda{I_1}-A_1|\cdots|\lambda{I_s}-A_s|
\]

(注意,这个等式可以看成一个Laplace展开的递归运用。)

如果设$|\lambda{I_1}-A_1|=f_i(\lambda)$,那么就将$f(\lambda)$分解成了$\textbf{s}$个互质因子
\[
f(\lambda)=f_1(\lambda)f_2(\lambda)\cdots{}f_s(\lambda)
\]

其中$f_i(\lambda)$是$A_i$的特征多项式。而$f(\lambda)=\prod_{i=1}^{s}p_i(\lambda)^{d_i}$是唯一分解,不难得到$f_i(\lambda)=p_i(\lambda)^{d_i}$,此即所求结论。

准素分解的实例,以及如何判断矩阵是否可以对角化

设矩阵
\[
A=\begin{bmatrix} 2&-1&2&2 \\
1&0&-2&0 \\
1&0&1&1 \\
-1&1&-2&-1 \end{bmatrix}
\]

对应线性变换$\mathscr{A}:x\mapsto{Ax}$。现在$\mathbb{R}^4$上进行准素分解.

$A$的极小多项式为$m(\lambda)=(\lambda-1)^2(\lambda^2+1)$。那么$\mathbb{R}^4$应该分解为

在这两个核中分别选取一组基,即得准素分解。这个时候如果用matlab代码解第一个子空间,就可以是

null((A-I)^2)

在$W_1$中取基$x_1=(0,0,0,1)^T$和$x_2=(2,0,1,0)^T$,在$W_2$中取基$(1,0,0,-1)^T$和$(1,1,0,-1)^T$,得到矩阵
\[
P=\begin{bmatrix}
0&2&1&1 \\
0&0&0&1 \\
0&1&0&0 \\
1&0&-1&-1 \end{bmatrix}
\]

不难得到准素标准形
\[
B=P^{-1}AP=\begin{bmatrix}
-1&-4&0&0 \\
1&3&0&0 \\
0&0&-1&-2 \\
0&0&1&1 \end{bmatrix}
\]

准素分解的若干性质都可以在这个准对角形中得到验证。


然而,矩阵$A$是不能被对角化的(无论是在$\mathbb{R}$中还是$\mathbb{C}$中)。然而,上篇博客中探讨的矩阵
\[
C=\begin{bmatrix}
0&-1&2&0 \\
-1&0&-2&0 \\
0&0&-5&0 \\
1&1&-2&1 \end{bmatrix}
\]

是一定可以对角化的(不论在$\mathbb{R}$中还是在$\mathbb{C}$中)。这时为什么? 有没有什么一般化的规则?

注意$m_c(\lambda)=(\lambda-1)(\lambda+1)(\lambda+5)$,极小多项式的根互异。而$A$的极小多项式的根不是互异的(在$\mathbb{C}$中)。又想,如果一个矩阵的特征多项式的根互异,那么就一定有$n$个特征根,而属于不同特征根的特征向量又是线性无关的,那么就一定能选取一组特征向量构成的基,就一定能对角化。但是这个时候极小多项式一定和特征多项式相等。实际上

域$\mathbb{F}$上的矩阵$A$可以对角化的充分必要条件是,$m(\lambda)$可以写成这种形式
\[ m(\lambda)=(\lambda-\lambda_1)(\lambda-\lambda_2)\cdots(\lambda-\lambda_s) \] 其中$\lambda_1,\cdots,\lambda_s\in\mathbb{F}$,且互异.

如果有$P^{-1}AP=\text{diag}(\lambda_1{I_1},\cdots,\lambda_s{I_s})$,那么通过简单的矩阵运算,可以发现

因此有

同时,考虑到$\lambda_i$是$A$的特征值,因此是$m$的根,所以有

此即$m=(\lambda-\lambda_1)\cdots(\lambda-\lambda_s)$。

另一方面,如果$m(\lambda)=(\lambda-\lambda_1)(\lambda-\lambda_2)\cdots(\lambda-\lambda_s)$,那么对$A$进行准素分解能得到

\[
P^{-1}AP=\text{diag}(A_1,\cdots,A_s)
\]

接下来,考虑到$A_i$的极小多项式是$\lambda-\lambda_i$,那么就有
\[
A_i-\lambda_i{I_i}=0
\]
所以$A$可以被对角化。