The Big Three Pt. 1 - Baire Category Theorem Explained

About the ‘Big Three’

There are three theorems about Banach spaces that occur frequently in the crux of functional analysis, which are called the ‘big three’:

  1. The Hahn-Banach Theorem
  2. The Banach-Steinhaus Theorem
  3. The Open Mapping Theorem

The incoming series of blog posts is intended to offer a self-read friendly explanation with richer details. Some basic analysis and topology backgrounds are required.

First and second category

The term ‘category’ is due to Baire, who developed the category theorem afterwards. Let $X$ be a topological space. A set $E \subset X$ is said to be nowhere dense if $\overline{E}$ has empty interior, i.e. $\text{int}(\overline{E})= \varnothing$.

There are some easy examples of nowhere dense sets. For example, suppose $X=\mathbb{R}$, equipped with the usual topology. Then $\mathbb{N}$ is nowhere dense in $\mathbb{R}$ while $\mathbb{Q}$ is not. It’s trivial since $\overline{\mathbb{N}}=\mathbb{N}$, which has empty interior. Meanwhile $\overline{\mathbb{Q}}=\mathbb{R}$. But $\mathbb{R}$ is open, whose interior is itself. The category is defined using nowhere dense set. In fact,

  • A set $S$ is of the first category if $S$ is a countable union of nowhere dense sets.
  • A set $T$ is of the second category if $T$ is not of the first category.

Baire category theorem (BCT)

In this blog post, we consider two cases: BCT in complete metric space and in locally compact Hausdorff space. These two cases have nontrivial intersection but they are not equal. There are some complete metric spaces that are not locally compact Hausdorff.

There are some classic topological spaces, for example $\mathbb{R}^n$, are both complete metric space and locally compact Hausdorff. If a locally compact Hausdorff space happens to be a topological vector space, then this space has finite dimension. Also, a topological vector space has to be Hausdorff.

By a Baire space we mean a topological space $X$ such that the intersection of every countable collection of dense open subsets of $X$ is also dense in $X$.

Baire category states that

(BCT 1) Every complete metric space is a Baire space.

(BCT 2) Every locally compact Hausdorff space is a Baire space.

By taking the complement of the definition, we can see that, every Baire space is not of the first category.

Suppose we have a sequence of sets $\{X_n\}$ where $X_n$ is dense in $X$ for all $n>0$, then $X_0=\cap_n X_n$ is also dense in $X$. Notice then $X_0^{c} = \cup_n X_n^c$, a nowhere dense set and a countable union of nowhere dense sets, i.e. of the first category.

Proving BCT 1 and BCT 2 via Choquet game

Let $X$ be the given complete metric space or locally Hausdorff space, and $\{X_n\}$ a countable collection of open subsets of $X$. Pick an arbitrary open subsets of $X$, namely $A_0$ (this is possible due to the topology defined on $X$). To prove that $\cap_n V_n$ is dense, we have to show that $A_0 \cap \left(\cap_n V_n\right) \neq \varnothing$. This follows the definition of denseness. Typically we have

A subset $A$ of $X$ is dense if and only if $A \cap U \neq \varnothing$ for all nonempty open subsets $U$ of $X$.

We pick a sequence of nonempty open sets $\{A_n\}$ inductively. With $A_{n-1}$ being picked, and since $V_n$ is open and dense in $X$, the intersection $V_n \cap A_{n-1}$ is nonempty and open. $A_n$ can be chosen such that

For BCT 1, $A_n$ can be chosen to be open balls with radius $< \frac{1}{n}$; for BCT 2, $A_n$ can be chosen such that the closure is compact. Define

Now, if $X$ is a locally compact Hausdorff space, then due to the compactness, $C$ is not empty, therefore we have

which shows that $A_0 \cap V_n \neq \varnothing$. BCT 2 is proved.

For BCT 1, we cannot follow this since it’s not ensured that $X$ has the Heine-Borel property, for example when $X$ is the Hilbert space (this is also a reason why BCT 1 and BCT 2 are not equivalent). The only tool remaining is Cauchy sequence. But how and where?

For any $\varepsilon > 0$, we have some $N$ such that $\frac{1}{N} < \varepsilon$. For all $m>n>N$, we have $A_m \subset A_n\subset A_N$, therefore the centers of $\{A_n\}$ form a Cauchy sequence, converging to some point of $K$, which implies that $K \neq \varnothing$. BCT 1 follows.

Applications of BCT

BCT will be used directly in the big three. It can be considered as the origin of them. But there are many other applications in different branches of mathematics. The applications shown below are in the same pattern: if it does not hold, then we have a Baire space of the first category, which is not possible.

$\mathbb{R}$ is uncountable

Suppose $\mathbb{R}$ is countable, then we have

where $x_n$ is a real number. But $\{x_n\}$ is nowhere dense, therefore $\mathbb{R}$ is of the first category. A contradiction.

Suppose that $f$ is an entire function, and that in every power series

has at least one coefficient is $0$, then $f$ is a polynomial (there exists a $N$ such that $c_n=0$ for all $n>N$).

You can find the proof here. We are using the fact that $\mathbb{C}$ is complete.

An infinite dimensional Banach space $B$ has no countable basis

Assume that $B$ has a countable basis $\{x_1,x_2,\cdots\}$ and define

It can be easily shown that $B_n$ is nowhere dense. In this sense, $B=\cup_n B_n$. A contradiction since $B$ is a complete metric space.

The series

Since there is no strong reason to write more posts on this topic, i.e. the three fundamental theorems of linear functional analysis, I think it’s time to make a list of the series. It’s been around half a year.

Jordan标准形的求法——以一个四阶矩阵为例

一个简单的例子

这篇博客里,我们会求一个矩阵的Jordan标准形(在$\mathbb{C}$中):

我们会顺着上一篇博客的思路,用一个比较“机械”的办法,求出矩阵的Jordan标准形。但是,每一步的原因都是能给出的。“机械”的意思是说,有章可循。如果你有编程基础,你完全可以依照这个办法把求Jordan标准形的步骤写成程序。不过,通往Jordan标准形的路有好几条,我觉得更适合用计算机程序写的路不应该是这篇博客的办法,而应该是这个网站的计算办法。

1. 求特征多项式、极小多项式

求这个矩阵的特征多项式能得到

当然,这个矩阵是不能对角化的,因为我们可以发现有

求这两个方程的目的是显然的,Jordan要用到准素分解、循环分解,而准素分解需要用到极小多项式,极小多项式又和特征多项式有很多联系。

同时,我们能得到特征根

2. 对矩阵进行准素分解

我们已经知道,在$\mathbb{C}$上存在可逆矩阵$P$使得

其中$A_1$的特征多项式$f_1=(\lambda-2)^2$,极小多项式$m_1=(\lambda-2)^2$,$A_2$的极小多项式和特征多项式$m_2=f_2=\lambda-(3-\sqrt{5}i)$,$A_3$的极小多项式和特征多项式$m_3=f_3=\lambda-(3+\sqrt{5}i)$。

这就是之前讲过的先进行准素分解。先利用极小多项式的因子进行切割,然后在每个子矩阵进行仔细分析。下面是详细步骤。


我们已经知道,有

所以我们需要求出$4$个广义特征向量。由$(A-I)^2\mathbf{v}=0$得

由$(A-(3-\sqrt{5}i)I)\mathbf{v}=0$得

由$(A - (3+\sqrt{5}i)I)\mathbf{v}=0$得

我们得到了过渡矩阵

且有准素分解

这就对应了本节开始的

特征多项式和极小多项式都是可以直接验证的。

3. 对准素分解得到的子矩阵进行循环分解

首先,我们仔细回顾一下,为了得到Jordan链,我们需要进行什么工作。对于矩阵$A_i$,我们进行循环分解,得到有理标准形

然后,对每个子矩阵$A_{ij}$($m_{ij}=(\lambda-\lambda_i)^{k_{ij}}$的友阵),考虑$B_{ij}=A_{ij}-\lambda_iI$,不难发现$B_{ij}$的极小多项式是$\lambda^{k_{ij}}$,所以只需要再对$B_{ij}$进行一次循环分解即可(如果很难理解,可以回顾一下上篇博客)。按照这个原理,在准素分解得到的$A_1$、$A_2$、$A_3$中,后两个的阶数为$1$,已经不需要分解,相似于自己即可。

对于矩阵

考虑到不变因子$m_{11}=(\lambda-2)^2=\lambda^2-4\lambda+4$,有且仅有一个,我们能得到它的有理标准形是

从$A_{1}$到$A_{11}$的过渡矩阵可以取循环基$\alpha=(1,0)^T$和$A_1\alpha=(\frac{5}{4},\frac{3}{4})^T$,构成过渡矩阵$Q=\begin{bmatrix}1&\frac{5}{4} \\ 0 & \frac{3}{4}\end{bmatrix}$。此时就有

令$B_{11}=A_{11}-2{I}=\begin{bmatrix}-2& -4 \\ 1 & 2\end{bmatrix}$,又重新取循环基,$\alpha=(1,0)^T$和$B_{11}\alpha=(-2,1)^T$,得到过渡矩阵$U=\begin{bmatrix}1& -2 \\ 0& 1\end{bmatrix}$,这个时候又有

从而对于$A_{11}$来说又有

再回到矩阵$A_1$,又有

令$V_1=QU$,我们就得到了$A_1=V_1^{-1}J_2(2)V_1$,得到一个和Jordan块的相似。

4. 将所有矩阵组装起来,得到原矩阵到Jordan标准形的总过渡矩阵

对于$A_2$和$A_3$来说,对应的$V_2$和$V_3$都是一阶单位矩阵,因为本身就已经不能再化简了。结果,我们得到了从$\text{diag}(A_{11},A_{22},A_{33})$到Jordan标准形的过渡矩阵$S=\text{diag}(V_1,V_2,V_3)$,也就是说

满足

最后再加上用来准素分解的$P$,我们就得到了从原矩阵$A$到Jordan标准形$J$的过渡矩阵

满足$T^{-1}AT=J$。到这里,我们的过渡矩阵就被求出来了。每一步都有缘由,都直接运用前面的线性代数理论,没有任何偏差。

但是要注意,Jordan标准形中,指定特征值下的Jordan块,不一定只有一个。这篇博客中的矩阵$A$,在特征值为$2$下有一个,这是因为极小多项式和特征多项式恰好相等。Jordan标准形中有多个相同特征值下的Jordan块的例子有没有?当然有,而且很简单,单位矩阵就是一个例子。

矩阵Jordan标准形的原理

说在前面

我们在处理较大规模线性运算(主要涉及加法、乘法)时,总是希望能对计算进行简化。例如需要讨论若干个线性方程的解,或者解一个高阶微分方程,再或者是一些非线性问题在局部的线性拟合估计。一个经典的办法是矩阵对角化。但是,不是所有矩阵都能对角化的。例如矩阵$\begin{bmatrix}1&0\\1&1\end{bmatrix}$在$\mathbb{R}$和$\mathbb{C}$中都不能对角化,因为其最小多项式是$(\lambda-1)^2$。而矩阵

在$\mathbb{R}$中不可以对角化,在$\mathbb{C}$中可以对角化,因为最小多项式是$(\lambda-1)(\lambda^2+1)$。那么有没有什么稳妥的简化矩阵的办法?对角阵可能是简化的极限,那么能不能退而求其次,得到一个比较简单的形式 ,同时又把对角形当作一个特殊情况?

幸运的是,Jordan标准形给了我们这样一个机会。事实上,只要我们约定矩阵中的元素都是复数(实数看成虚部为$0$),那么就能保证,这个矩阵一定可以简化成Jordan标准形,是一个三角形矩阵,而且元素全部集中在对角线附近,而且如果这个矩阵能对角化,那么这个对角形,其实就是一个“极端”的Jordan标准形。

除了矩阵对角化、线性变换不变子空间等,这篇博客需要如下知识背景:

另,在读完这篇后,可以参考这篇博客中对一个四阶矩阵Jordan标准型的具体计算。亦可以将链接中的博文作为方便理解本篇的例子。

Jordan标准形的形式,以及和对角形的关系

实际上,$\begin{bmatrix}1&0\\1&1\end{bmatrix}$就是一个Jordan标准形的简单例子。Jordan标准形已经是简化的极限,所以很不幸,对角化和它无关。我们定义$n$阶矩阵

也就是一个对角线下方全是1的矩阵下三角形矩阵。又定义Jordan块(Jordan标准形的组成元素)如下

而Jordan标准形,就是由这些Jordan块作为对角元素的准对角矩阵,也就是

其中$\text{diag}(\cdots)$表示将括号内元素放在对角线上的对角矩阵。一个Jordan标准形可能是

也就是$n_1=n_2=\cdots=n_k=1$,这个时候就已经得到了一个对角阵。对角阵和Jordan标准形的关系就很清晰了。

也可能是

我们不妨写成$J=\text{diag}(J_2(2),J_1(7))$。

当然,这个地方的$J$写成上三角矩阵,也是可以的。原因在后面会解释。

复方阵的Jordan标准形总是存在

我们在这一节要证明这一个结论:

对任一复方阵$A$,总是存在可逆复方阵$P$使得

实际上,只要矩阵$A$的特征多项式,有$n$个特征值(这些特征值可以重复,可以不重复),那么这个矩阵就可以通过上面这个公式,转化成一个Jordan标准形。所以,实矩阵可能不需要要求把每个数都看成虚部为$0$的数,就可以对角化。而根据古典代数学基本定理,一个$n$阶复多项式一定有$n$个根,所以复矩阵一定是可以Jordan化的(如何推广这一点似乎就很明显了,不过这不在本篇博客的讨论范围内)。

下面提供两种不同的角度进行理解。但是整体思路是一样的。先对矩阵进行准素分解,又进行循环分解,再把循环分解的那一部分进行“错位”,得到Jordan标准形。

从线性空间的角度理解

首先,我们定义一个线性变换(在$\mathbb{C}^n$下的标准基$\{(1,0,\cdots,0),(0,1,\cdots,0),\cdots,(0,0,\cdots,1)\}$下)

不妨设$\mathscr{A}$和$A$的特征多项式为

首先,对$\mathbb{C}^n$进行准素分解,得到

我们又可以对每个子空间$V_i$进行循环分解,得到

设$\mathscr{A}$限制在$V_i$和$V_{ij}$上的线性变换分别是$\mathscr{A}_i$和$\mathscr{A}_{ij}$,特征多项式分别是$(\lambda-\lambda_i)^{d_i}$和$(\lambda-\lambda_i)^{r_{ij}}$。为方便起见,我们记$V_{ij}=V$,$r_{ij}=r$, $\mathscr{A}_{ij}=\mathscr{A}_V$。定义新的线性变换

其中$\mathscr{I}_V$是$V$中的恒等变换。因为不会产生歧义,我们简记成$\mathscr{B}_V=\mathscr{A}_V-\lambda_i$。因为$\mathscr{A}_V$的最小多项式是$(\lambda-\lambda_i)^r$,所以不难发现$\mathscr{B}^r_V$的极小多项式是$\lambda^r$,也就是说$\mathscr{B}^{r}_V=\mathscr{O}$,是一个零变换。

我们又知道,$V$是由$\mathscr{A}_V$张成的循环子空间。不妨设$V$的循环基是

我们会证明,如果把$\mathscr{A}_V$换成$\mathscr{B}_V$,得到的一组向量仍然是一组基。也就是说,我们需要证明

这组基线性无关。我们只需要证明从$\{\alpha_i\}$到$\{\beta_i\}$的过渡矩阵是可逆矩阵;或者说,用$\beta_i$表示$\alpha_i$的矩阵的行列式不等于$0$;或者说,$\{\beta_i\}$这组向量的秩为$r$,这些说法都是等价的。我们不难发现(也可以用归纳证明)

用矩阵的形式表示,设$\beta=\begin{bmatrix}\beta_1\\ \beta_2 \\ \vdots \\\beta_n\end{bmatrix}$,$\alpha=\begin{bmatrix}\alpha_1\\ \alpha_2 \\ \vdots \\\alpha_n\end{bmatrix}$,那么就有

也就是说,过渡矩阵(不妨设为$B$)的每一行,都是$(1-\lambda)^k$的对应项。显然,$\det{B} \neq 0$。这说明,这组向量线性无关,是$V$的一组基。对于这组基,我们有

最后一个成立是因为$(\mathscr{A}-\lambda_i)\beta_r=\mathscr{B}_V^{r}\beta_1=0$。这组$\beta_i$又称作Jordan链,因为关系又可以写成一个链性关系:

如果我们用$\{\beta_i\}$作为基,那么$\mathscr{A}_V$的矩阵表示恰好就是一个Jordan块$J_{r}(\lambda_i)$。这是我们对任意一个循环子空间$V_{ij}$进行的操作,将所有的子空间都选择一组Jordan链之后,将所有的Jordan链作为$\mathbb{C}^n$的一组新基,即为$P$,根据矩阵相似的原理,将标准基变换为全体Jordan链,就得到了Jordan标准形。

证明的进一步理解:为什么要进行准素分解和循环分解?

在这里进行准素分解和循环分解,并非空穴来风。准素分解是根据矩阵的特征值进行分解。把特征值相等的部分切割开来,保证每个子空间,对应的每个子矩阵,都在操作相同的特征值,这保证了特征值还能在这个分解中派上用场

接下来,对每个准素分解子空间进行循环分解,把不变子空间这个概念充分直接运用(而不是只求特征向量这一丁点关于不变子空间的信息),再将每个子空间分解成循环子空间。但是循环分解得到的是一个友阵,这个友阵不够简洁。因为最后一列与$(\lambda-\lambda_i)^r$的二项式展开的系数有关系。如果我们对循环基进行合适的偏移,发现子空间也是$\mathscr{B}_V = \mathscr{A}_V-\lambda$这个线性变换张成的子空间,而$\mathscr{B}_V$的友阵恰好是一个$L_n$,就得到了一个非常简洁的表示形式了。

如果我们把Jordan链的顺序完全颠倒,从$\beta_1,\beta_2,\cdots,\beta_n$颠倒成$\beta_n,\beta_{n-1},\cdots,\beta_1$,那么得到的标准形$J’$就是$J$的转置。所以,$J$和$J^{T}$都可以用来表示Jordan标准形。

从矩阵运算的角度理解

设$A$的特征多项式为$f(\lambda)=(\lambda-\lambda_1)^{d_1}\cdots(\lambda-\lambda_s)^{d_s}$(其中,$\lambda_1,\lambda_2,\cdots,\lambda_s$互异)。首先,对矩阵$A$进行准素分解,也就是说,首先我们有

其中$A_i$的特征多项式为$(\lambda-\lambda_i)^{d_i}$。

再对$A_i$进行准素分解,

然后讨论$A_{ij}$。首先,$A_{ij}$的最小多项式必定是$(\lambda-\lambda_i)^{k_{ij}}$的形式,如果令$B_{ij}=A_{ij}-\lambda_iI$,那么$B_{ij}$的最小多项式是$\lambda_i^{k_{ij}}$,故根据循环分解,它相似与$C(\lambda_i^{k_{ij}})$,也就是说,存在可逆矩阵$U_{ij}$,使得

从而

此即一个Jordan块。将所有$U_{ij}$都求出来之后,就能得到Jordan标准形。选取$U_{ij}$的过程就是选取Jordan链的过程。

More properties of zeros of an entire function

What’s going on again

In this post we discussed the topological properties of the zero points of an entire nonzero function, or roughly, how those points look like. The set of zero points contains no limit point, and at most countable (countable or finite). So if it’s finite, then we can find them out one by one. For example, the function $f(z)=z$ has simply one zero point. But what if it’s just countable? How fast the number grows?

Another question. Suppose we have an entire function $f$, and the zeros of $f$, namely $z_1,z_2,\cdots,z_n$, are ordered increasingly by moduli:

Is it possible to get a fine enough estimation of $|z_n|$? Interesting enough, we can get there with the help of Jensen’s formula.

Jensen’s formula

Suppose $\Omega=D(0;R)$, $f \in H(\Omega)$, $f(0) \neq 0$, $0<r<R$, and $z_1,z_2,\cdots,z_{n(r)}$ are the zeros of $f$ in $\overline{D}(0;R)$, then

There is no need to worry about the assumption $f(0) \neq 0$. Take another look at this proof. Every zero point $a$ has a unique positive number $m$ such that $f(z)=(z-a)^mg(z)$ and $g \in H(\Omega)$ but $g(a) \neq 0$. The number $m$ is called the order of the zero at $a$. Therefore if we have $f(0)=0$ we can simply consider another function, namely $\frac{f}{z^m}$ where $m$ is the order of zero at $0$.

We are not proving this identity at this point. But it can be done by considering the following function

where $m$ is found by ordering $z_j$ in such a way that $z_1,\cdots,z_m \in D(0;r)$ and $|z_{m+1}|=\cdots=|z_{n}|$. One can prove this identity by considering $|g(0)|$ as well as $\log|g(re^{i\theta})|$.

Several applications

The number of zeros of $f$ in $\overline{D}(0;r)$

For simplicity we shall assume $f(0)=1$ which has no loss of generality. Let

and $n(r)$ be the number of zeros of $f$ in $\overline{D}(0;r)$. By the maximum modulus theorem, we have

If we insert Jensen’s formula into this inequality and order $|z_n|$ by increasing moduli, we get

Which implies

So $n(r)$ is controlled by $M(2r)$. The second and third inequalities look tricky, which require more explanation.

First we should notice the fact that $z_n \in \overline{D}(0;R)$ for all $R \in \mathbb{R}$. Hence we have $\log\frac{2r}{|z_n|} \geq \log1=0$ for all $z_n \in \overline{D}(0;R)$. Hence the second inequality follows. For the third one, we simply have

So this is it, the rapidity with which $n(r)$ can grow is dominated by $M(r)$. Namely, the number of zeros of $f$ in the closed disc with radius $r$ is controlled by the maximum modulus of $f$ on a circle with bigger radius.

Examples based on different $M(r)$

Let’s begin with a simple example. Let $f(z)=1$, we have $M(r)=1$ for all $r$, but also we have $n(r)=0$, in which sense this estimation does nothing. Indeed, as long as $M(r)$ is bounded by a constant, which implies $f(z)$ is bounded, then by Liouville’s theorem, $f(z)$ is constant and this estimation is not available.

But if $M(r)$ grows properly, things become interesting. For example, if we have

where $A$ and $k$ are given positive numbers, we have a good enough estimation by

This estimation becomes interesting if we consider the logarithm of $n(r)$ and $r$, that is

If we have $f(z)=1-\exp(z^k)$ where $k$ is a positive integer, we have $n(r) \sim \frac{kr^k}{\pi}$, also

Lower bound of $|z_{n(r)}|$

We’ll see here, how to evaluate the lower bound of $|z_{n(r)}|$ using Jensen’s formula, provided that $M(r)$, or simply the upper bound of $f(z)$ is properly described. Without loss of generality we shall assume that $f(0)=1$. Also, we assume that the zero points of $f(z)$ are ordered by increasing moduli.

First we still consider

and see what will happen.

By Jensen’s, we have

This gives

By the arrangement of $\{z_n\}$, we have


Another example is when we have

where $\Im{z}$ means the imagine part of $z$.

We shall notice that in this case,

Following Jensen’s formula, we therefore have

Linear ODE but Quotient Spaces

What does this blog do

We are treating linear ODE problems as an example of quotient space in this blog post. You are assumed to be able to solve linear ODEs without theoretical problems, and have some basic understanding of normal subgroups.

General theories

Quotient Space

Let $X$ be a vector space, and $N$ a subspace of it. Naturally $N$ is normal in $X$ since $X$ is abelian. Define

for $x \in X$, then the collection of sets $\{\pi(x):x \in X\}$ is the quotient space of $X$ modulo $N$, in which case we write $X/N$. Addition and scalar multiplication are defined by

This is well-defined since $N$ is a vector space. The kernel of $\pi$ or the origin of $X/N$ has to be $N=0+N$. People call $\pi$ the canonical map.

Linear ODE

If one solves a linear ODE problem of order $n$ on an interval $(a,b)$, namely

where $\mathbf{A}$ is a constant matrix, they will find that the solution can be

where $\mathbf{c}$ is a given constant vector and $\mathbf{\Phi}(x)=\begin{bmatrix}\mathbf{\varphi_1},\mathbf{\varphi_2},\cdots,\mathbf{\varphi_n}\end{bmatrix}$ and $\{\mathbf{\varphi_i}\}$ are the fundamental solutions of $\frac{d\mathbf{y}}{dx}=\mathbf{Ay}$. We’ll translate this into the language of quotient space. We have to show that the solutions of the equation forms an element of $X/N$.

Steps to quotient space

So where is the $X$? It suffices to pick $\mathcal{C}^n$, the space of all functions $\mathbf{y}=(y_1,y_2,\cdots,y_n)^T$ such that $y_k$ is $n$-time differentiable. The crux therefore becomes finding $N$. And we’ll show that it’s denoted by $\mathbf{\Phi}(x)\mathbf{c}$.

The solutions of $\frac{d\mathbf{y}}{dx}=\mathbf{Ay}$ form a vector space

Indeed, it’s trivially verified since $\frac{d}{dx}$ and matrix multiplication are linear. The question is, how does this vector space look like? Why the fundamental solutions to this equation has and only has $n$ elements? Does that mean this space (denoted by $N$), has dimension $n$? Fortunately, the following isomorphism answers this question in the affirmative.

Theorem The vector space $N$ is isomorphic to $\mathbb{R}^n$

Pick and fix $x_0 \in (a,b)$. Picard’s existence and uniqueness theorem ensures that, the initial value problem

has a unique solution. Therefore we have a bijection

It suffices to prove that $H$ is linear. Namely, we need to show that

which is trivial, since

Quotient space and coset are there

Let’s see this solution again

For $\mathbf{c}=(c_1,c_2,\cdots,c_n)^T$, we have

Notice that $\{\mathbf{\varphi_k}\}$ is a basis of $N$ and there we have it. $\mathbf{c}$ can be any element of $\mathbb{R}^n$, hence $\mathbf{\Phi}(x)\mathbf{c}$ goes through all elements of $N$. Also we know, the function

is a special solution to $\frac{d\mathbf{y}}{dx}=\mathbf{Ay}+\mathbf{f}$. Thus we have the coset

to be the set of all solutions where $\pi(\mathbf{z}) \in X/N$.

Prove Picard's Existence and Uniqueness Theorem on Different Levels

IVP and Picard’s

By IVP (Initial Value Problem), we mean the problem about solving

Of course we do hope we can solve this problem easily with a simple result. But that won’t happen if the function $f$ is ‘ugly’ enough. Hence the problem is, generally and theoretically, when we can get a unique solution? When does some solution exist? Fortunately Picard ensured that

If $f$ is uniformly Lipschitz continuous in $y$ and continuous in $x$ on $R=\{(x,y):|x-x_0| \leq a,|y-y_0| \leq b\}$, then for some $\varepsilon>0$, there exists a unique solution $y$ to the IVP on the interval $[x_0-\varepsilon,x_0+\varepsilon]$.

Interesting enough, there are several ways to prove it on different levels. This blog post offers two proofs.

Proving Picard’s existence and uniqueness theorem

Some preparation

By uniformly Lipschitz continuous, we mean that for all $y \in R$, $f$ satisfies

for some $L > 0$. This condition is useful in many different branch of mathematics.

Also, it’s trivial to verify that the IVP is equivalent to

And yes, our job becomes finding such a $y$ satisfying this equation.

A sketch of the proof in elementary calculus

Honestly the proof is kind of long. I’ll leave the basic steps here. First, we define the Picard sequence by

for $n=0,1,\cdots$. It can be shown by induction that

where $M = \sup\limits_{(x,y) \in R}|f(x,y)|$ and $\varepsilon = \min\left(a,\frac{b}{M}\right)$. We want to prove that

is the solution to the IVP, where Lipschitz condition comes into play by considering

Finally, it should be shown that $y$ is the unique solution. To do this, it can be shown that, if we have two solutions, say $y=u(x)$ and $y=v(x)$, then $u(x)-v(x)=0$.

Osgood’s condition ensures uniqueness

Osgood’s condition is much weaker than Lipschitz’s. Under Osgood’s condition, it’s easy to check the uniqueness (existence is not guaranteed), but there is no way to get the result (while Lipschitz’s show you the way) through this condition.

$f(x,y)$ has at most one solution in every point in $R$ if $f$ is continuous and satisfies the Osgood’s condition, namely

in $R$ where $F$ is a continuous function such that $F(t)>0$ for all $r>0$. Also, $F$ is defined in such a way that

for some $r_1>0$.

Naturally, if we define $F(r)=Lr$, we have $\int_{0}^{r_1}\frac{1}{Lr}dr=\infty$.

Proof of Osgood’s

We’ll prove this theorem indirectly. That is, if there exists some point $(x_0,y_0) \in R$ such that $f$ has at least two solutions, then $f$ does not satisfy Osgood’s condition, which is equivalent to the statement that if $f$ satisfies Osgood’s, then $f$ has no more than solution.


Suppose now there exists a point $(x_0,y_0) \in R$ such that $y’=f(x,y)$ has two distinct solutions

and $y_1 \neq y_2$ for at $x_1 \neq x_0$. W.L.O.G. we suppose that $x_1 > x_0$. Define

and $r(x)=y_1(x)-y_2(x)$ on $[x_s,x_1]$. The derivative of $r$ is interesting since we have

Then the desired improper integral converges since we have

Therefore $f$ does not satisfy Osgood’s condition.

Banach FPT is applied onto Picard’s

What is Banach FPT (Fixed Point Theorem)

A map $T: X \mapsto X$ defined on a complete metric space $(X,d)$ is a contraction if there exists some $k \in [0,1)$ such that

Banach Fixed Point Theorem states that, $T$ admits a fixed point, namely $T(x)=x$ for some $x \in X$.

The proof is an application of Cauchy sequence (notice that $(X,d)$ is complete). Pick an arbitrary $x_0 \in X$, by defining $T(x_n)=x_{n+1}$, we have

which finally goes to

$\{x_n\}$ is Cauchy then since we have

Since $(X,d)$ is complete, we see $\{x_n\}$ converges. Also, $T$ is (uniformly) continuous, therefore

Uniqueness of the fixed point follows from the uniqueness of limit.

Proving Picard’s using Banach FPT

Fortunately, Picard’s existence and uniqueness theorem can be directly proved using Banach FPT. All we need is a proper translation.

Complete metric space

Let $\mathcal{C_B}(R)$ be all bounded continuous function on $R$, then $\mathcal{C_B}(R)$ is complete considering the metric by

Contraction map

The functional $T:\mathcal{C_B}(R)\mapsto\mathcal{C_B}(R)$ by

is the contraction we are looking for, if we take uniform Lipschitz’s condition into consideration. Namely, if we have $\varepsilon<\frac{1}{L}$, we can see that

Therefore by Banach FPT, the functional $T$ has a unique fixed point, which is equivalent to Picard’s existence and uniqueness theorem. Further, the solution can be obtained by taking

where $y(x_0)=y_0$ comes from the initial value problem. Picard’s follows from FPT.

线性ODE(三)——初探高阶线性方程

一些让步

直接解释方程计算办法,看似很实在,但是反而会让问题变得更复杂,因为对结构很不清楚,只剩下一个空穴来风的公式。但是,接下来我们不得不假设我们能很轻松地算出一个方程的解(就当是超能力吧!)——因为有的方程本来就没有什么普遍的解决办法。这篇博客的目的在于,让读者认识到,就算没有具体的解决办法,也能宏观上对方程进行一些合适的处理。这篇博客中也不是解释如何解方程,而是关于如何利用矩阵和一些常见的数学理论,分析未知的问题。解方程的具体办法会在下一篇博客。

解结构的分析

从一阶一次线性方程中得到的启示

最开始我们分析的是这种方程

如果我们有一个解$y_1(x)$使得

而且有一个特殊的解$y_2(x)$使得

那么全体解就可以表示成$Cy_1(x)+y_2(x)$,有

所以如果是$n$个未知数呢?会不会是得到$n$个解,然后再有一个特解?但是一定得是$n$个吗?会不会是更多,或者更少个?如果是$n$个,会不会和一般研究的$n$维欧几里得空间建立联系?比如处理一个$2$元方程,是不是可以投影到二维平面?幸运的是,我们可以很轻松地把欧几里得空间和线性方程的解建立起联系。

线性方程与欧几里得空间的联系

这篇博客(和接下来的博客)中,加粗的数学符号都代表列向量或者矩阵。如果觉得不适应,可以自己写成向量和矩阵方便理解。

解的存在性和唯一性

线性方程组

的满足条件

的解是存在且唯一的(这里要求$\mathbf{f}$和$\mathbf{A}$中的函数都是连续的)。这个问题的证明是一个比较麻烦的事情,涉及到Banach不动点问题,在这里就不做证明了。但是也是很好理解的:这里的$\mathbf{A}$和$\mathbf{f}$都是连续的,都不是“病态”的,所以这个方程不会有“病态的”形式,解是很自然的。

和欧氏空间的一一对应

我们宣称,线性方程组

的解和$n$维欧氏空间是一一对应的。也就是说,对每个$\mathbf{y}(x)$,都对应$n$维欧氏空间的唯一一个向量;反之,对$n$维欧氏空间的每一个向量,都对应着一个方程组的唯一一个解

这其实就是所谓解的存在性和唯一性的直接应用。在定义域固定一个$x_0$,然后我们选择$\mathbb{R}^n$的自然基,也就是

其中$\mathbf{e_1}=(1,0,\cdots,0)$, $\mathbf{e_n}=(0,\cdots,0,1)$。

那么满足

的解就是存在且唯一的。如果这个对应,所以我们也选择了

这样一组“基”(这里我们假设我们已经有一下子求出解的超能力),那么能不能建立一个$\mathbb{R}^n$的平行版?答案是可以的。对于$\mathbb{R}^n$ ,我们肯定有

我们设这一节中方程的全体解集合为$\mathfrak{R}^n$,那么我们已经有了$\mathbf{y_i} \in \mathfrak{R}^n$,我们希望

这其实利用求导的性质和矩阵的性质,就可以解决。因为

而且不难验证,$C_1\mathbb{y_1}+C_2\mathbf{y_2}$和$C_1\mathbf{e_1}+C_2\mathbf{e_2}$也是一一对应的。所以,我们可以很自然地构建一个和$\mathbb{R}^n$一一对应的平行的空间,尽管这个空间我们可能没法可视化。

我们知道,$\{\mathbf{e_1},\mathbf{e_2},\cdots,\mathbf{e_n}\}$这组向量,能很自然地用加法和数乘表示出$\mathbb{R}^n$中任意一个向量,而我们建立的等价关系也已经保证,$\{\mathbf{y_1}(x),\mathbf{y_2}(x),\cdots,\mathbf{y_n}(x)\}$也能用加法和数乘,表示出$\mathfrak{R}^n$中的任意一个解。换句话说,本节的方程的全体解$\mathfrak{R}^n$,其中的任意一个解,都可以表示成

其中$C_i$为常数。这里其实是一个同构(isomorphism)关系,如果了解这个概念,可以很轻松的写出严格的证明,但在这里就不深入了。

注意,我们这里已经强迫$\mathbf{f}=\mathbf{0}$. 这样一个$\mathbf{y_0}$,就能保证$\mathbf{y’=Ay+f}$的普遍性。如果我们已经得到了一个$\mathbf{y’=Ay+f}$的特殊解$\mathbf{y_1}$,保证了准确性,那么,$\mathbf{y_0+y_1}$,总共$n+1$个函数,就能表示出所有解了。$\mathbf{f}=0$时,我们的$\mathbf{y_1}=0$也是很和谐的。我们在解决多元微分方程时,处理的问题和一元一次情况下,是很类似的。

尝试解决高阶方程

我们现在还有那个超能力,能一下子解决$\frac{d\mathbf{y}}{dx}=\mathbf{A}(x)\mathbf{y}$这样的方程,能求出一组基对应的解。如果我们令

那么我们就可以得到一个方程

所以我们已经得到了$n$个不同的解,不妨设这组解是$y_1,y_2,\cdots,y_n$。分别对这些$y_i$求导$n-1$次,就能得到上一节中的$n$维列向量。

那么如果是

这种方程,该怎么求解呢?我们还是通过类似于之前一阶线性方程的办法,通过求导运算,间接求出来。假设有一个函数$y$满足这个方程。

我们不妨设

以及

其中满足$y_p=\mathbf{c \cdot y}$(利用行向量、列向量的乘法规则)。所以我们接下来的工作就是求出这样一个$\mathbf{c}$。我们会尝试用线性代数的语言进行描述,可以看到,表述变得非常简单。在这里,对向量求导、求积分的意思是

但是直接进行下去也似乎漫无边际。我们希望,能把这个$c$给稳定下来,所以我们会尝试加一些限制条件。这样的限制应该是$n-1$条。这就好比,如果要在平面中确定,和一条直线垂直的直线,那么只需要一个向量就行了。如果要在空间中确定,和一个平面垂直的一条直线,确定两个向量就行了——所谓两条相交直线确定一个平面。

我们来分析一下怎么确定会更好。对$y$求导,我们有

如果我们令$c’y=0$,那么就有

如果再令$\mathbf{c’ \cdot y’}=0$,继续下去,甚至是$\mathbf{c’ \cdot y^{(k)}}=0$,其中$0 \leq k \leq n-2$,那么对应就有$y_p^{(k)}=cy^{(k)}$。而且接下来求导就变得比较简单。但是,如果我们令$\mathbf{c \cdot y^{(p)}}=0$,就很麻烦了,因为接下来多了像是$c’,c’’,\cdots$这种未知量。这会让等式越来越长,没法表达。所以,我们选择限制条件

已经选择了$n-1$个限制条件,那么能不能凑个整,得到第$n$个式子?那样的话,有$n$个未知数,有$n$个等式,像是再搞矩阵了。我们还有一点根本没用上:最开始的方程。对于$0 \leq k \leq n-1$,我们已经已经有(可以手动验算一下):

所以就有

这个时候,回到最开始的方程,代入这$n$个等式,有

最后一个等号成立是因为,在$\mathbb{y}$中,每个分量$y_k$都满足$y_k+a_1y_k^{(n-1)}+\cdot+a_ny_k=0$。所以这些向量加起来是一个$0$向量。

所以我们有了关于$\mathbf{c’}$的$n$个等式,也就是说

如果我们写成矩阵的形式,就有

如果你学习了Cramer法则,那么怎么解决这个问题已经浮现在眼前了。没错,我们可以直接利用Cramer法则,求出$\mathbf{c’}$,然后再求积分。我们用线性代数,将这个结构厘清,又简单利用微积分,将结果得出。

对于每个$c_k’$,我们有

从而$c_k = \int\frac{W_k}{W}dx$,重复$n$次,就得到了整个$y_p$,从而得到我们想要的解。其中$W$为上式中由$y_1,y_2,\cdots,y_n$构成的矩阵的行列式,而$W_k$是将$W$中第$k$列换成$(0,0,\cdots,0,f)^T$之后得到的矩阵的行列式。具体而言,我们有

并没有什么诡异又空穴来风的公式需要记忆,这一切都来得很自然。可能会有人注意到,如果这里的$W(x)=0$该怎么办?这其实说明,选择的解,并没有代表性,其中的一个解,可以用另外几个解表示出来。比如方程$y’’=y$,应该选择解$e^{x},e^{-x}$,不应该选择$e^{x}$和$2e^{x}$,因为这个时候$e^{x}$可以很直接地表示出$2e^{x}$来。

一个例子

这篇博客里并没有直接解释怎么直接解出高阶常微分方程,实际上这个问题并不见得有多简单。但是,如果我们有了超能力,能解出方程右边等于$0$时候的解,就能得到所有实际要求的解了。我们可以试着解一个方程。

如果要解$y’’+y-2y=0$,可以得到一组具有代表性的解:$e^{x}$和$e^{-2x}$。这个时候的$W$和$W_k$就可以直接求出来了。

从而

假设我们知道在原点处的取值情况,例如$\begin{cases}y(0)&=0\\ y’(0)&=1\end{cases}$,我们就能得到方程组

解出$C_1=\frac{1}{3}$,$C_2=-\frac{1}{3}$.

关于《有人弄乱了这束玫瑰花》

Credit: https://desorbita.wordpress.com/2017/10/23/alguien-desordena-estas-rosas/

她做得很好。二十年,房间中的孤独感并没有消退。我不想知道,她为什么选择回来。或者说我早已经知道。她想和那个她一起度过一个个童年午后的孩子分享同一份孤独。不过现在她像是照看一个有残疾的孙子,而这个孙子在他奶奶还有五岁的时候就没挪过窝,这个窝在山坡上的坟头里,窝里的孙子的尸骸已经回归自然。

我的想法很简单,我想从她的桌子上取一束玫瑰,在周日给自己上坟。可是她总是死死盯着,像是免受自己的孤独受到损伤一样盯着。这个眼神没有变,四十年前的她,用同样的眼神看着那个仰面朝天摔死在马厩的草堆的男孩的尸体。正是这个眼神让我认出来,她就是八月里那个大雨倾盆的下午陪我一起在马厩掏鸟窝的女孩。

可我并没有参透她的想法。关于她为什么回来,关于她为什么要为圣徒留下那些玫瑰花。

她的突然回归接近毁掉我的孤独感,但是这二十年,我们分享了不一样的孤独。等到她再也回不到这个房间,她需要被四个人抬到山岗,可能会葬在我的旁边。这就不是我能管到的了。在那之后,我想每个周日,拿两束玫瑰,一束放在自己的坟头,另一束放在她的坟头。但没必要,我不希望再去打扰她的孤独感了,她也不会打扰到我了。

那时候她就已经知道一切。每个周日,有人弄乱了玫瑰花。我会永远一个人待在这个房间,和她没来之前一样。我浑身是土,身上长满了蜘蛛网。我能分辨木头腐烂时的声音。我能分辨陈旧空气的鼓翼声。这一切在四十年前就决定了。这二十几年我很累。我也已经满意了。

加西亚·马尔克斯:有人弄乱了玫瑰花

线性ODE(二)——用矩阵表示方程组

矩阵表示的目的

的确,看似普通的一元常微分方程,就已经存在非常难解,或者无法用初等形式得到解的方程了,例如Airy方程$y’’=xy$。它的解是这个样子的:

这个看似平凡的方程的解就这么复杂,我们更不能指望有解决更多未知函数或者次数更高的方程,能总是得到简洁的结果。但是在宏观上的处理还是可行的,这也给我们解决比较简单的方程(也可能是将复杂的问题在局部进行简化近似)创造了可能性。

在求解一般的线性方程组时,我们将一个方程组表示成一个矩阵和列向量的乘积的形式。这种表示方法可以简化表示,还可以充分运用矩阵的性质,像是行列式、秩、标准型等等。在解决线性微分方程组时,我们也想进行类似的 操作。具体而言,我们想解决这样几个问题:

  1. 假设我们已经得到了方程的解,那么这些解有怎样的性质?和一般的实数范围的方程组的解有什么不同?
  2. 既然求导是线性运算,我们在线性代数中的理论,有多少可以用上?
  3. 如果要求解的方程组的系数全是实数,那么能不能运用实矩阵的性质,对矩阵进行简化(例如化为对角型等),对方程求解进行简化?

多元线性常微分方程组

从方程组到矩阵

我们考虑这种形式的方程组:

这个时候,如果我们令

以及

那么这个方程组就可以写成

高阶常微分方程和多元常微分方程组

高阶方程是指的这种形式

这个方程看似和多元方程组没有关系,但是如果我们新定义若干变量,加上一些约束关系,这个方程就一个多元方程了

我们又知道

那么这个时候,一个矩阵已经浮现出来了:

同时有

这时,矩阵运算就变得自然了,也就是说,$\frac{d\mathbf{y}}{dx}=\mathbf{A}(x)\mathbf{y}+\mathbf{f}(x)$。如果了解过友阵,那么看到这里的$\mathbf{A}(x)$难免要想到它。如果这里的$a_i(x)$都是常数,那么这个矩阵就是一个常见的多项式的友阵。有意思的是,这不是巧合。

对于多项式$f(\lambda)=\lambda^k+c_{k-1}\lambda^{k-1}+\cdots+c_0$,对应的友阵$C(f)$为

不难验证,$C(f)$的特征多项式为$f$。有些场合会把友阵写成上述矩阵的转置。

但是我们应该直接把高阶微分方程直接看成一个多元微分方程组吗?那样远远不够。高阶微分方程对应的矩阵的特殊结构,导致它具有一些特殊的性质,这些性质不是讨论多元微分方程组的性质能替代的。

接下来的内容

虽然可能有点唐突,我们接下来会先假设,我们已经能很轻松得到一个矩阵对应的解,然后需要做的工作是搞清其中的结构。在获得适量的结论(但是不应该过于深入)之后,我们会尝试讨论最简单的方程:高阶微分方程,也就是

包括一些可行的解法,和用线性代数工具进行操作的实例。标准化、Cramer法则等等,都会在这里很自然地出现。接下来,我们会讨论稍微复杂点的方程组:常系数微分方程组,即系数矩阵$\mathbf{A}(x)$为常数的矩阵。最后,我们会尝试得到对于所有方程组的一些普遍性结论。

线性ODE(一)——线性方程的思想与一阶方程

前言

说到常微分方程,很多人可能认为,这是通过各种充满技巧性、构造性的手段直接或者间接求导求积分,而且根本想不出来这些技巧从那里冒出来的。因为这样对,所以这样对,所以我以后就这样套公式,就算出结果来了,一验算确实如此。事情并非如此。的确,常微分方程中有一些问题,现在都没有被研究清楚,但是那些基本的、常见的常微分方程问题,并没有什么看不见摸不着的玄学。在这些理论背后,是微积分、线性代数等等基本工具之间朴素而又美妙的联系。这一系列的博客,正想给读者呈现这一点。我们会遵循这样一个原则:先通过代数,将微分方程的结构厘清,再通过微积分,得到所希望得到的结果。可以看下面这个例子:

image-20200501132151024

假如你需要讨论椭圆$\frac{x^2}{4}+y^2-\frac{xy}{2}=1$的性质,那你肯定不愿意。这个椭圆在坐标系中是斜着的,如果要计算各种性质的话,那可能是巨大的计算量,得到一个个令人绝望的二次方程,甚至还有分式等等。但是,如果我们把原来的基旋转一个合适的角度,也就是从$\{E_1,E_2\}$旋转到了$\{E_1’,E_2’\}$,那么在这组新基下,它就是一个很平凡的椭圆了,也就是说,我们只需要讨论在这组新基下表示的椭圆方程就行了。看上去很美好,但是实际可行吗?当然可行。这个变换没有改变椭圆的任何性质。椭圆没有平移,没有变形;周长没有变,面积没有变。我们在这组新基下得到的结果,只需要再反转回去,就是原来所求的结果。

还有一个问题:这个旋转是所谓构造性极强、充满技巧的手段吗?是空穴来风吗?不是。这是利用了线性变换,利用了特征值,利用了矩阵的基本性质。此后,再在新基下运用各种直线方程、微积分方法等等,变得非常简单。这就是我们接下来要运用的思想。

一阶线性方程

一阶线性方程的定义与一个物理学实例

我们接下来要解决的是这种类型的方程

只需要$y’$和$y$的次数都是$1$,而且没有$y^a(y’)^{b}$这种形式出现,就是一个一阶(因为$y’$只求导了一次)线性(只有一次项)方程。

这样的方程自然也有自己的实际价值。例如通过电学中的Kirchhoff’s Circuit Laws,对于一个简单的R-L串联电路(串联有一个电阻、一个电感的直流电电路),我们能得到电流强度方程

其中,$i(t)$表示电流强度,$R$表示串联的电阻,$L$表示电感,$E$表示电压。显然,$i=\frac{E}{R}$就是一个特解。如果我们有$L \neq 0$,那么两边除以$L$,就能得到

这里的$\frac{R}{L}$就可以看成$p(t)$,$\frac{E}{L}$可以看成$q(t)$,尽管都是常数。如果解这个方程(解法会在后面介绍,这个解也可以加以验证),能得到

但是考虑到实际情况,开关闭合之前,电流强度是$0$;直到在闭合的一瞬间$t=0$时,有$i=0$。考虑到这一点,就能直接将常数$C$解出来,也就得到了

从电流问题中得到的启发

上一节我们试图探讨R-L串联电路中电流强度的变化,给出了一个有物理意义的方程,并且解了出来。问题是,为什么会出现常数$e$?

我们在高中就学过,$(e^{x})’=e^x$,或者更普遍一点,$(Ce^x)’=Ce^x$。如果在$x$的系数上做文章,有$(Ce^{-ax})’=-aCe^{-ax}$。注意,如果我们令$y=Ce^{-ax}$,那么我们已经得到了

这是最简单的一阶线性方程了。$Ce^{-ax}$的性质和线性方程吻合得很好。但是上面的方程明显比这个复杂,却还是有一个$e$在这里。可不可以认为,形如$y’+ay=b$的方程是由$y’+ay=0$进行“调整”得到的?更进一步,方程$y’+p(x)y=q(x)$是不是由$y’+p(x)y=0$衍生出来的?是怎么衍生出来的?这个解的结构是怎样的?

实际情况是,在讨论多元常微分方程组、高阶常微分方程的时候,我们都还是从指数函数出发,从等式右边等于$0$出发。当然我们现在不应该深入太多。

从高斯消元法到线性微分方程解的结构

高斯消元法,或者是更单纯的求解$n$元一次方程组的办法,我想读者肯定知道计算原理。我们举一个简单的例子

通过高斯消元法,或者单纯说是反复给其中两个方程做加减法和代入,能得到

令$x_3=t$,就能得到$x_1=-2-3t,x_2=1+t$。其中$t \in \mathbb{R}$。这时我们就得到了这个线性方程组的解。为了表示方便,结合矩阵运算的性质,原来的式子可以写成矩阵的形式:

不妨用$A$表示这个矩阵,$v_1=(-2,1,0)^T$,$v_2=(-3,1,1)^T$,$v_0=(0,1,-3)^T$($T$表示转置,这里为了书写简便)。那么可以验证,$Av_1=v_0$,而$Av_2=0$。那么这个式子又可以写成

所以我们想求的未知向量$x=v_1+tv_2$由两部分组成:一部分是符合$Ax=b$的一个特殊解,一部分符合$Ax’=0$,两部分的和代表了所有的解。也就是说,一个线性方程组的解,可能有无穷多个。但是,有一部分保证了解是准确的(也就是上面的$v_1$),有一部分保证解是普遍的(也就是上面的$tv_2$。$v_2$指出了解延伸的骨架,$t$取遍所有实数进行遍历)。

为什么要举高斯消元法这样一个例子呢?这里矩阵乘法是一个线性运算($A(\alpha v+\beta w)=\alpha Av+\beta Aw$),而求导也是一个线性运算($(af+bg)’=af’+bg’$),也就是说,它们都是“平直”的,是没有让问题变复杂的乘积的。电流方程的通解

很好验证,但是是不是也是这样的结构?对于$i_1=\exp(-\frac{R}{L}t)$,通过简单的求导运算可以得到$\frac{di_1}{dt}+\frac{R}{L}i_1=0$。对于$i_2=\frac{E}{R}$,我们已经知道它满足原来的方程。所以$i=Ci_1+i_2$,代入原来的方程,就有

这和上面求三元一次方程组得到的结果是类似的。只是形式不同,但是结构相同。$i_2$保证了解的准确性,$i_1$保证解的普遍性,遍历所有结果。求解一阶线性微分方程,我们已经看清了结构(通过高斯消元法的类比),接下来,需要通过微积分的手段,得到一个合适结论。

一阶线性常微分方程的解决办法

形如$y’+p(x)y=0$的方程的解

显然,$y=0$是这个方程的一个解。如果$y \neq 0$,我们可以将这个方程改写成这个形式

分别对$x$和$y$积分,就能得到

又可以写成

其中$C$为常数。$C=0$时,恰好对应了$y=0$这个解。的确,如果我们解

就能得到$i=C\exp({-\frac{R}{L}t})$。

形如$y’+p(x)y=q(x)$的方程的解

事情似乎变得有点蹊跷。难不成要强行凑出一个满足这个方程的解,然后再加上满足$y’+p(x)y=0$的全体解?并非如此。求出一个满足条件的$y$有很多办法,我会在这里介绍一种比较直观的办法。

实际上,我们知道了$q(x)$就已经足够了。设有$f(x)=e^{-\int p(x)dx}$,设全体解是

其中$\mu(x)$满足$\mu’+p(x)\mu=q(x)$。我们通过已知的$f$和$q$直接求出$\mu$来,从而求出所有解来。

不妨设$\mu(x)=f(x)c(x)$,我们通过几个函数的性质求出$c(x)$来。对$\mu$求导有

这里利用了$f’(x)+p(x)f(x)=0$。而$f(x)与$$p(x)$都是已知的,经过化简就得到了

对$c’$求积分,就得到(其实这是直接写出来)

所以全体解就是

这个时候,$c(x)e^{-\int p(x)dx}$决定了解的准确性,$C \cdot e^{-\int p(x)dx}$决定了解的普遍性。如果我们已经知道了一个特殊值,也就是说$y(x_0)=y_0$,那么方程$y’+p(x)=q(x)$的解就可以准确写成

这并不是什么生拉硬拽的拼凑和巧合,并不需要所谓灵光一现,需要的是对线性运算的基本理解。

不妨再去验证一下刚开始的那个电路方程是不是符合这一结果。

全体解都被包含了吗?

可能这个结论不具有信服力。是不是漏掉了哪些解?

我们已经知道$\mu(x)$是一个解,不妨再设有一个解$y(x)$,那么$y(x)-\mu(x)$是什么样子?如果是$Cf(x)$,那么刚刚好,因为这里的$y$是任意选取的,这就体现了$Cf(x)$的普遍性。实际上

而解$y-\mu$,就得到了$y-\mu=Cf(x)$,所以说,全体解的确是$Cf(x)+\mu$。

你已经意识到了,求不定积分也是求一阶线性微分方程

在初学微积分的时候,求不定积分常常要有一个$+C$。在现在这个框架下这个结果就很明显了。我们求

其实可以看成求

而$y’=0$解得$y=C$,又假设我们已经解得一个函数$F$使得$F’=f$,那么就有

了。$F$保证解的准确,$C$保证解的普遍性。

伯努利方程——将方程化为一阶线性方程

有些方程虽然不是一阶线性方程,但是好在我们能将它经过简单的变换,变成一个一阶线性方程。例如这个方程

虽然甚至都不是线性方程(因为$y$有一个次数是$-1$),但是如果令$z=y^2$,就有

这就得到了一个一阶线性方程了(尽管可能很难算)。一般地讲,对于伯努利方程

两边乘以$(1-n)y^{-n}$,就能得到

在令$z=y^{1-n}$,就能得到

这就是一个一阶线性方程了,计算就变得很简单。