线性空间的循环子空间与简单应用

矩阵的有理标准形

矩阵对角化分解虽然会得到最简单的形式，但是条件是很苛刻的。它要求被分解的$n$阶矩阵有$n$个线性不相关的特征向量，具体地说，一个矩阵可对角化当且仅当对应特征值的几何重数等于对应的代数重数。还有可能需要扩张数域，例如实矩阵解出复根，考虑复特征向量。所以说这种分解不稳定。而且它并不能直接反映一个矩阵的所有性质。幸运的是，除了对角化分解之外还有一些不同的矩阵分解办法。虽然形式上不如对角矩阵一样简洁，但是却能体现不同的性质——例如对特征多项式的分解。而且，这些分解办法对任何矩阵都是可行的。

首先要介绍的是有理标准形(rational form)。这里的“有理”和$\mathbb{Q}$没有关系。所谓“rational”是因为，不同于其他几种分解方式，这种分解不需要扩张数域。具体来说，对域$\mathbb{F}$上任意方阵$A$，存在$\mathbb{F}$上的可逆矩阵$P$使得 $B=P^{-1}AP=\text{diag}(C(m_1),\cdots,C(m_r))$

其中，$C(m_i)$是$m_i\in\mathbb{F}(\lambda)$的友阵(companion matrix)，是由$\mathbb{F}$上的多项式$m_i$唯一决定的。这些多项式也是由$A$唯一决定的，叫做矩阵的不变因子。

这些多项式也有特殊的性质(这也是这种分解的意义所在)。首先，$m_1$是$A$的最小多项式，$A$的特征多项式可以表示为$f(\lambda)=m_1\cdots{m_r}$。在顺序上，应该有$m_i|m_{i-1}(i=2,3,\cdots，r)$。也就是说次数大的在前面小的在后面。

一个多项式的友阵是指这样的一个方阵：

$C(c_0+c_1t+\cdots+c_{n-1}t^{n-1}+t^n)=\begin{pmatrix} 0&0&\cdots&0&-c_0 \\ 1&0&\cdots&0&-c_1 \\ 0&1&\cdots&0&-c_2 \\ \vdots&\vdots&\ddots&\vdots&\vdots \\ 0&0&\cdots&1&-c_{n-1} \end{pmatrix}$

不难发现，一个多项式的方阵是被这一个方阵唯一决定的。讨论这个矩阵的特征多项式可以发现特征多项式$f$即为此多项式。

这篇博客里会先介绍一下这种分解的背景和一些相对粗略简单的分解实例。矩阵有理标准形的完整论述会放到接下来的博客中。

循环空间

需要指出，这样一个标准型涉及到线性空间的循环分解，而循环分解又涉及到循环空间这一概念。“循环”这一概念体现在被同一个线性变换反复作用。循环空间指的是对某一线性变换，某一向量的最小不变子空间。

设$V$是数域$\mathbb{F}$上的线性空间，对于固定的线性变换$\mathscr{A}$，和一个指定的向量$\alpha \in V$，应该有 $\mathscr{A}\alpha, \mathscr{A}^2\alpha, \cdots\in{V}$

考虑到线性空间对向量的加法和数乘的封闭性，$\mathbb{F}$上的全体多项式就恰好固定了这些向量。也就是说，对于最小不变子空间$W$，应该包含$\mathbb{F}$上全体多项式$\mathbb{F}[\lambda]$的像 $\mathbb{F}[{\lambda}]{\alpha}=\mathbb{F}[\mathscr{A}]\alpha=\{g(\mathscr{A})\alpha :g(\lambda)\in\mathbb{F}[\lambda]\}$

另一方面，$\mathbb{F}[\lambda]\alpha$已经是不变子空间，因此有$W=\mathbb{F}[\lambda]\alpha$。$W$称为$\alpha$生成$\mathscr{A}$的循环子空间，如果有$W=V$，那么$V$称为循环空间，$\alpha$称为$V$的循环向量。

零化子

在接触循环分解之前，先需要考察一下循环空间的“大小”。一些线性空间的基本性质要在这里搞明白。这样一个线性空间的维数是多少? 怎样能找到这个线性空间的零向量? 线性空间的基怎么找到? 既然是不变子空间，那么限制线性变换的方阵表示又是怎样? 这些问题都需要通过分析零化子来解决。

如果对多项式$g(\lambda)$有 $g(\lambda)\alpha=g(\mathscr{A})\alpha=0$ 那么$g(\lambda)$称为$\alpha$的零化子(aka 零化多项式)。

$\alpha$的次数最低的首一零化多项式称为最小零化子。显然，零化子是最小零化子的倍。注意这里的零化子是相对于$\alpha$，这和线性变换的零化子是两回事。接下来会通过分析线性相关性找出最小零化子。

如何找到最小零化子

选取循环向量$\alpha\in{W}$，再考察向量$\mathscr{A}\alpha$是否和$\alpha$线性相关，如果否，也将$\mathscr{A}\alpha$选取，再按照同样的办法选取$\mathscr{A}^2\alpha,\cdots,\mathscr{A}^{k-1}\alpha$，而$\alpha,\mathscr{A}\alpha,\mathscr{A}^2\alpha,\cdots,\mathscr{A}^{k-1}\alpha,\mathscr{A}^k\alpha$线性相关。根据线性空间的性质，$\mathscr{A}^k\alpha$可以被前面$(k-1)$个向量线性表示出来。也就是说有$c_0,\cdots,c_{k-1}\in\mathbb{F}$使得 $\mathscr{A}^{k}\alpha+c_{k-1}\mathscr{A}^{k-1}\alpha+\cdots+c_1\mathscr{A}\alpha+c_0\alpha=0$

如果令$m_{\alpha}(\lambda)=\lambda^k+c_{k-1}\lambda^{k-1}+\cdots+c_0$，那么就有$m_\alpha(\mathscr{A})\alpha=0$。也就是说，$m_\alpha$是$\alpha$的零化子。接下来需要验证这是次数最低的首一多项式。

设$g(\lambda)$为$\alpha$的零化多项式。那么$g(\lambda)$可以写成 $g(\lambda)=m_{\alpha}(\lambda)q(\lambda)+r(\lambda)$

其中，$r=0$或$\text{deg}r<k$。$r=0$时，显然$g(\lambda)$是$m_{\alpha}(\lambda)$的倍。而$\text{deg}r<\text{deg}g$时不然。因此只需要证明第二种情况是不存在的即可。注意到 $0=g(\mathscr{A})\alpha=m_{\alpha}(\mathscr{A})q(\mathscr{A})\alpha+r(\mathscr{A})\alpha=r(\mathscr{A})\alpha$

如果有$r\neq{0}$，则$\text{deg}r<k$，这和$\alpha,\mathscr{A}\alpha,\cdots,\mathscr{A}^{k-1}\alpha$线性无关矛盾。因此，$m_{\alpha}(\lambda)$即为所求最小零化子。

循环空间的维度、基

在求最小零化子的时候，我们找到了$k$个线性无关的向量。然后第$k+1$个可以用这$k$个向量表示。这里的$k$应该和这个循环空间有着特殊的关系。注意到这$k$个向量能表示$\mathscr{A}^{k}\alpha$。那么能不能表示$W$中全部向量? 如果是这样的话，这$k$个向量就是这个循环空间的基，$k$就是维度(这可以联想到抽象代数中的循环空间的阶)。

已知 $\mathscr{A}^{k}\alpha=-(c_{k-1}\mathscr{A}^{k-1}\alpha+\cdots+c_1\mathscr{A}\alpha+c_0\alpha)$

两边分别用$\mathscr{A}$作用，那么左边是$\mathscr{A}^{k+1}\alpha$，右边是$\alpha,\mathscr{A}\alpha,\cdots,\mathscr{A}^{k-1}$的线性组合(注意，等式右边$\mathscr{A}$的次数分别为$k，k-1,\cdots，1$，而$\mathcal{A}^{k}$已经可以被线性表示)。递推下去可知，对于所有$n>=0$，$A^{n}$都可以被$\alpha,\mathscr{A}\alpha,\mathscr{A}^{k-1}\alpha$线性表示。也就是说，$\alpha,\mathscr{A}\alpha,\mathscr{A}^{k-1}\alpha$是$W$的一组基，$W$的维度为$k$，也就是$\alpha$的最小零化子的最高次。

此外不难验证，$\mathscr{A}$在$W$上的限制对应的矩阵$A_W$即为$C(m_\alpha)$。

循环空间的实例

不妨讨论一下特征向量。设非零向量$\alpha$是$\mathscr{A}$的特征向量。那么由$\alpha$生成的循环子空间的维度只能是$1$。

首先$\alpha$和自己线性不相关，而$\mathscr{A}\alpha=\lambda\alpha$，故与$\alpha$已经线性相关。此时也得到极小零化子为$\mathscr{A}\alpha-\lambda\alpha$。而循环子空间也已经被确定，是$\alpha$所在的”直线”$\mathbb{F}\alpha$。假设$\alpha=(1,0)^T$，$V=\mathbb{R}^{(2)}$，那么这个循环空间就是$y$轴。

为了体现循环空间对数域的”稳定性”，现在讨论线性空间$V=\mathbb{Q}^3$上的线性变换。也就是说，我们会尝试对有理数三阶方阵进行分解。

设有矩阵 $A=\begin{pmatrix} 1&0&0 \\ 0&1&1 \\ 1&1&0 \end{pmatrix}$

和定义在$V$上的线性变换$\mathscr{A}(x)=Ax$。设$V$的自然基为$\varepsilon_1,\varepsilon_2,\varepsilon_3$。现在讨论一下由$\varepsilon_1$生成的循环空间$W_1$。显然$W_1$的维数不超过$3$。循环对$\varepsilon_1$作用$\mathscr{A}$，能得到

$\mathscr{A}\varepsilon_1=(1,0,1)^T,\mathscr{A}^2\varepsilon_1=(1,1,1),\mathscr{A}^3\varepsilon_1=(1,2,2)$

可以验证，$\varepsilon_1,\mathscr{A}\varepsilon_1,\mathscr{A}^2\varepsilon_1$线性不相关，又有$\mathscr{A}^3\varepsilon_1=-\varepsilon_1+2\mathscr{A}^2\varepsilon_1$可知，最小零化子为 $m_1(\lambda)=\lambda^3-2\lambda^2+1$ 注意到系数全是整数。从而得到在$\varepsilon_1,\mathscr{A}\varepsilon_1,\mathscr{A}^2\varepsilon_1$下$\mathscr{A}$这个线性变换的方阵表示为$m_1(\lambda)$的友阵

$B=\begin{pmatrix} 0&0&-1 \\ 1&0&0 \\ 0&1&2 \end{pmatrix}$

另一方面，自然基到$\varepsilon_1,\mathscr{A}\varepsilon_1,\mathscr{A}^2\varepsilon_1$这组基的过渡方阵又有

$P=\begin{pmatrix} 1&1&1 \\ 0&0&1 \\ 0&1&1 \end{pmatrix}$

不难验证，$B=P^{-1}AP$。整个运算推导过程没有脱离$\mathbb{Q}$。这是理所当然的。整个过程中只有域$\mathbb{Q}$上的加法和乘法运算。但是特征值分解不一定能这么”稳定”。矩阵$A$本身就是一个很有意思的反例：特征值中出现了无理数。

实际上，矩阵$B$就是矩阵$A$的有理标准形，而且特征多项式$f=m_1$。显然$m_1$被$A$唯一决定。这是一个比较特殊的例子(不妨试试用$\varepsilon_2$进行一下循环分解)。接下来的博客会讨论一下更普遍的结论和性质。

updated at 2025-05-11