线性空间的循环子空间与简单应用

矩阵的有理标准形

矩阵对角化分解虽然会得到最简单的形式,但是条件是很苛刻的。它要求被分解的\(n\)阶矩阵有\(n\)个线性不相关的特征向量,具体地说,一个矩阵可对角化当且仅当对应特征值的几何重数等于对应的代数重数。还有可能需要扩张数域,例如实矩阵解出复根,考虑复特征向量。所以说这种分解不稳定。而且它并不能直接反映一个矩阵的所有性质。幸运的是,除了对角化分解之外还有一些不同的矩阵分解办法。虽然形式上不如对角矩阵一样简洁,但是却能体现不同的性质——例如对特征多项式的分解。而且,这些分解办法对任何矩阵都是可行的。

首先要介绍的是有理标准形(rational form)。这里的“有理”和\(\mathbb{Q}\)没有关系。所谓“rational”是因为,不同于其他几种分解方式,这种分解不需要扩张数域。具体来说,对域\(\mathbb{F}\)任意方阵\(A\),存在\(\mathbb{F}\)上的可逆矩阵\(P\)使得 \[ B=P^{-1}AP=\text{diag}(C(m_1),\cdots,C(m_r)) \]

其中,\(C(m_i)\)\(m_i\in\mathbb{F}(\lambda)\)的友阵(companion matrix),是由\(\mathbb{F}\)上的多项式\(m_i\)唯一决定的。这些多项式也是由\(A\)唯一决定的,叫做矩阵的不变因子。

这些多项式也有特殊的性质(这也是这种分解的意义所在)。首先,\(m_1\)\(A\)的最小多项式,\(A\)的特征多项式可以表示为\(f(\lambda)=m_1\cdots{m_r}\)。在顺序上,应该有\(m_i|m_{i-1}(i=2,3,\cdots,r)\)。也就是说次数大的在前面小的在后面。

一个多项式的友阵是指这样的一个方阵:

\[ C(c_0+c_1t+\cdots+c_{n-1}t^{n-1}+t^n)=\begin{pmatrix} 0&0&\cdots&0&-c_0 \\ 1&0&\cdots&0&-c_1 \\ 0&1&\cdots&0&-c_2 \\ \vdots&\vdots&\ddots&\vdots&\vdots \\ 0&0&\cdots&1&-c_{n-1} \end{pmatrix} \]

不难发现,一个多项式的方阵是被这一个方阵唯一决定的。讨论这个矩阵的特征多项式可以发现特征多项式\(f\)即为此多项式。

这篇博客里会先介绍一下这种分解的背景和一些相对粗略简单的分解实例。矩阵有理标准形的完整论述会放到接下来的博客中。

循环空间

需要指出,这样一个标准型涉及到线性空间的循环分解,而循环分解又涉及到循环空间这一概念。“循环”这一概念体现在被同一个线性变换反复作用。循环空间指的是对某一线性变换,某一向量的最小不变子空间。

\(V\)是数域\(\mathbb{F}\)上的线性空间,对于固定的线性变换\(\mathscr{A}\),和一个指定的向量\(\alpha \in V\),应该有 \[ \mathscr{A}\alpha, \mathscr{A}^2\alpha, \cdots\in{V} \]

考虑到线性空间对向量的加法和数乘的封闭性,\(\mathbb{F}\)上的全体多项式就恰好固定了这些向量。也就是说,对于最小不变子空间\(W\),应该包含\(\mathbb{F}\)上全体多项式\(\mathbb{F}[\lambda]\)的像 \[ \mathbb{F}[{\lambda}]{\alpha}=\mathbb{F}[\mathscr{A}]\alpha=\{g(\mathscr{A})\alpha :g(\lambda)\in\mathbb{F}[\lambda]\} \]

另一方面,\(\mathbb{F}[\lambda]\alpha\)已经是不变子空间,因此有\(W=\mathbb{F}[\lambda]\alpha\)\(W\)称为\(\alpha\)生成\(\mathscr{A}\)循环子空间,如果有\(W=V\),那么\(V\)称为循环空间\(\alpha\)称为\(V\)的循环向量。

零化子

在接触循环分解之前,先需要考察一下循环空间的“大小”。一些线性空间的基本性质要在这里搞明白。这样一个线性空间的维数是多少? 怎样能找到这个线性空间的零向量? 线性空间的基怎么找到? 既然是不变子空间,那么限制线性变换的方阵表示又是怎样? 这些问题都需要通过分析零化子来解决。

如果对多项式\(g(\lambda)\)\[ g(\lambda)\alpha=g(\mathscr{A})\alpha=0 \] 那么\(g(\lambda)\)称为\(\alpha\)的零化子(aka 零化多项式)。

\(\alpha\)的次数最低的首一零化多项式称为最小零化子。显然,零化子是最小零化子的倍。注意这里的零化子是相对于\(\alpha\),这和线性变换的零化子是两回事。接下来会通过分析线性相关性找出最小零化子。

如何找到最小零化子

选取循环向量\(\alpha\in{W}\),再考察向量\(\mathscr{A}\alpha\)是否和\(\alpha\)线性相关,如果否,也将\(\mathscr{A}\alpha\)选取,再按照同样的办法选取\(\mathscr{A}^2\alpha,\cdots,\mathscr{A}^{k-1}\alpha\),而\(\alpha,\mathscr{A}\alpha,\mathscr{A}^2\alpha,\cdots,\mathscr{A}^{k-1}\alpha,\mathscr{A}^k\alpha\)线性相关。根据线性空间的性质,\(\mathscr{A}^k\alpha\)可以被前面\((k-1)\)个向量线性表示出来。也就是说有\(c_0,\cdots,c_{k-1}\in\mathbb{F}\)使得 \[ \mathscr{A}^{k}\alpha+c_{k-1}\mathscr{A}^{k-1}\alpha+\cdots+c_1\mathscr{A}\alpha+c_0\alpha=0 \]

如果令\(m_{\alpha}(\lambda)=\lambda^k+c_{k-1}\lambda^{k-1}+\cdots+c_0\),那么就有\(m_\alpha(\mathscr{A})\alpha=0\)。也就是说,\(m_\alpha\)\(\alpha\)的零化子。接下来需要验证这是次数最低的首一多项式。

\(g(\lambda)\)\(\alpha\)的零化多项式。那么\(g(\lambda)\)可以写成 \[ g(\lambda)=m_{\alpha}(\lambda)q(\lambda)+r(\lambda) \]

其中,\(r=0\)\(\text{deg}r<k\)\(r=0\)时,显然\(g(\lambda)\)\(m_{\alpha}(\lambda)\)的倍。而\(\text{deg}r<\text{deg}g\)时不然。因此只需要证明第二种情况是不存在的即可。注意到 \[ 0=g(\mathscr{A})\alpha=m_{\alpha}(\mathscr{A})q(\mathscr{A})\alpha+r(\mathscr{A})\alpha=r(\mathscr{A})\alpha \]

如果有\(r\neq{0}\),则\(\text{deg}r<k\),这和\(\alpha,\mathscr{A}\alpha,\cdots,\mathscr{A}^{k-1}\alpha\)线性无关矛盾。因此,\(m_{\alpha}(\lambda)\)即为所求最小零化子。

循环空间的维度、基

在求最小零化子的时候,我们找到了\(k\)个线性无关的向量。然后第\(k+1\)个可以用这\(k\)个向量表示。这里的\(k\)应该和这个循环空间有着特殊的关系。注意到这\(k\)个向量能表示\(\mathscr{A}^{k}\alpha\)。那么能不能表示\(W\)中全部向量? 如果是这样的话,这\(k\)个向量就是这个循环空间的基,\(k\)就是维度(这可以联想到抽象代数中的循环空间的阶)。

已知 \[ \mathscr{A}^{k}\alpha=-(c_{k-1}\mathscr{A}^{k-1}\alpha+\cdots+c_1\mathscr{A}\alpha+c_0\alpha) \]

两边分别用\(\mathscr{A}\)作用,那么左边是\(\mathscr{A}^{k+1}\alpha\),右边是\(\alpha,\mathscr{A}\alpha,\cdots,\mathscr{A}^{k-1}\)的线性组合(注意,等式右边\(\mathscr{A}\)的次数分别为\(k,k-1,\cdots,1\),而\(\mathcal{A}^{k}\)已经可以被线性表示)。递推下去可知,对于所有\(n>=0\)\(A^{n}\)都可以被\(\alpha,\mathscr{A}\alpha,\mathscr{A}^{k-1}\alpha\)线性表示。也就是说,\(\alpha,\mathscr{A}\alpha,\mathscr{A}^{k-1}\alpha\)\(W\)的一组基,\(W\)的维度为\(k\),也就是\(\alpha\)的最小零化子的最高次。

此外不难验证,\(\mathscr{A}\)\(W\)上的限制对应的矩阵\(A_W\)即为\(C(m_\alpha)\)

循环空间的实例

不妨讨论一下特征向量。设非零向量\(\alpha\)\(\mathscr{A}\)的特征向量。那么由\(\alpha\)生成的循环子空间的维度只能是\(1\)

首先\(\alpha\)和自己线性不相关,而\(\mathscr{A}\alpha=\lambda\alpha\),故与\(\alpha\)已经线性相关。此时也得到极小零化子为\(\mathscr{A}\alpha-\lambda\alpha\)。而循环子空间也已经被确定,是\(\alpha\)所在的”直线”\(\mathbb{F}\alpha\)。假设\(\alpha=(1,0)^T\)\(V=\mathbb{R}^{(2)}\),那么这个循环空间就是\(y\)轴。


为了体现循环空间对数域的”稳定性”,现在讨论线性空间\(V=\mathbb{Q}^3\)上的线性变换。也就是说,我们会尝试对有理数三阶方阵进行分解。

设有矩阵 \[ A=\begin{pmatrix} 1&0&0 \\ 0&1&1 \\ 1&1&0 \end{pmatrix} \]

和定义在\(V\)上的线性变换\(\mathscr{A}(x)=Ax\)。设\(V\)的自然基为\(\varepsilon_1,\varepsilon_2,\varepsilon_3\)。现在讨论一下由\(\varepsilon_1\)生成的循环空间\(W_1\)。显然\(W_1\)的维数不超过\(3\)循环\(\varepsilon_1\)作用\(\mathscr{A}\),能得到

\[ \mathscr{A}\varepsilon_1=(1,0,1)^T,\mathscr{A}^2\varepsilon_1=(1,1,1),\mathscr{A}^3\varepsilon_1=(1,2,2) \]

可以验证,\(\varepsilon_1,\mathscr{A}\varepsilon_1,\mathscr{A}^2\varepsilon_1\)线性不相关,又有\(\mathscr{A}^3\varepsilon_1=-\varepsilon_1+2\mathscr{A}^2\varepsilon_1\)可知,最小零化子为 \[ m_1(\lambda)=\lambda^3-2\lambda^2+1 \] 注意到系数全是整数。从而得到在\(\varepsilon_1,\mathscr{A}\varepsilon_1,\mathscr{A}^2\varepsilon_1\)\(\mathscr{A}\)这个线性变换的方阵表示为\(m_1(\lambda)\)的友阵

\[ B=\begin{pmatrix} 0&0&-1 \\ 1&0&0 \\ 0&1&2 \end{pmatrix} \]

另一方面,自然基到\(\varepsilon_1,\mathscr{A}\varepsilon_1,\mathscr{A}^2\varepsilon_1\)这组基的过渡方阵又有

\[ P=\begin{pmatrix} 1&1&1 \\ 0&0&1 \\ 0&1&1 \end{pmatrix} \]

不难验证,\(B=P^{-1}AP\)。整个运算推导过程没有脱离\(\mathbb{Q}\)。这是理所当然的。整个过程中只有域\(\mathbb{Q}\)上的加法和乘法运算。但是特征值分解不一定能这么”稳定”。矩阵\(A\)本身就是一个很有意思的反例: 特征值中出现了无理数。

实际上,矩阵\(B\)就是矩阵\(A\)的有理标准形,而且特征多项式\(f=m_1\)。显然\(m_1\)\(A\)唯一决定。这是一个比较特殊的例子(不妨试试用\(\varepsilon_2\)进行一下循环分解)。接下来的博客会讨论一下更普遍的结论和性质。

抽象Lebesgue积分的构建

从一个”难题”入手

\(\{f_n\}\)是一个定义在\([0,1]\)上的连续函数列,且\(0\leq f_n\leq 1\). \(n\to\infty\)时,对任意\(x\in[0,1]\)\(f_n(x)\to{0}\). 求证 \[ \lim_{n\to\infty}\int_{0}^{1}f_n(x)dx=0 \]

在Riemann积分下这个命题的证明确实很头疼。虽然说有\(\lim\limits_{n\to\infty}f_n(x)=0\),但是这里并不是一致收敛,所以不能直接将极限号和积分号交换。但是也没有别的信息,只能从连续性入手。

Riemann积分在讨论函数列的时候往往需要考虑是否一致收敛,这往往很麻烦。19世纪末,很多数学家都主张,高等数学课中的Riemann积分(这也是每个人都要学的)应该被新的一种更普遍、更灵活、更方便解决极限问题的积分替代。那个时期很多的数学家都进行了尝试,Lebesgue的办法可以说是集大成者。粗略地说,Riemann积分是由下面这个和式逼近的: \[ \sum_{i=1}^{n}f(t_i)\Delta{x_i} \]

也就是所谓面积的极限。\(f(t_i)\)是矩形的高,\(\Delta{x_i}\)是矩形的宽。当然还有Darboux上和、Darboux下和等等概念,然后讨论两者的差,在\(\varepsilon-N\)语言下严谨地逼近,这就是所谓可积性。讨论一个指定函数的积分,函数已经确定了,但这里的\(\Delta{x_i}\)还可以做文章。对于\(\Delta{x_i}=x_i-x_{i-1}\),它代表了区间\([x_{i-1},x_i]\)的长度,而区间是一个集合。能不能通过讨论集合的”大小”来解决积分问题呢?

这篇博客里讨论的集合是任意的(这也是博客标题里”抽象”所指)。既可以考虑经典的Euclidean空间,又可以考虑概率论中的事件空间,或者是其他。它们都可以统一到Lebesgue积分中,而Riemann积分在很多时候也可以通过Lebesgue测度”\(m\)“进行计算(粗略地说,\(m(E)\)就是\(E\)的“体积”)。另外,最开始的这个题在Lebesgue积分下也是很简单的。

\(\pi\)-系统、\(\lambda\)-系统、\(\sigma\)-代数

函数的值域

如果要给一个集合定义一个”大小”,也就是对应一个值,那么需要定义一个函数,这个函数建立起集合到实数或者复数的映射。例如定义\(m([a,b])=b-a\),这就是集合\([a,b]\)的长度,\(b-a\)就是一个实数。这个函数的值域可以是\(\mathbb{R}\)或者\(\mathbb{R}^2\)的一个子集,而定义域是怎样的呢? 首先,它应该是一个由集合构成的集合。比如一个集合\(A\)的幂集\(\mathcal{P}(A)\)。但是一定是幂集吗? 可不可以小一点或者大一点? 它又能不能保证一些运算的合理性? 这就是这里需要解决的问题。接下来,我们会一步步把这个”定义域”所需要满足的条件逐步勾勒出来。这也是Lebesgue积分的”主战场”。


一个由集合\(X\)子集构成的集合\(\mathcal{P}\)在满足如下条件时被称为\(\pi\)-系统: 如果\(A\in{P}\)\(B\in\mathcal{P}\),那么\(A\cap{B}\in\mathcal{P}\).

\(\pi\)-系统保证了这个集合族在有限次交运算的封闭性。一个最简单的\(\pi\)-系统是\(\mathbb{R}\)中所有闭区间(注意把\(\varnothing\)也算上)构成的集合。两个闭区间的并集必定是闭区间或\(\varnothing\),而\(\varnothing\)和闭区间的并集是\(\varnothing\)。这就是一个\(\pi\)-系统。但是不一定保证无穷次运算的封闭,也不保证并集的封闭。

概率论中的样本空间也是一个\(\pi\)-系统。两个事件的交也在一个样本空间中。这自然是合理的。但是只是\(\pi\)-系统肯定不够。就比如说,一个事件的否定该怎么办? 无穷个事件(这可能涉及到概率论中的收敛问题)又该怎么办? 如果积分是定义在\(\pi\)-系统上也不行,不能只考虑全体闭区间。接下来会引入另一个系统。

一个由集合\(X\)子集构成的集合\(\mathcal{L}\)在满足如下条件时被称为\(\lambda\)-系统:

  1. \(X\in\mathcal{L}\).
  2. \(A, B\in\mathcal{L}\),且\(B\subset{A}\),那么\(A-B\in\mathcal{L}\).
  3. \(A_n\in\mathcal{L}\),且\(A_n\subset{A_{n+1}}\),那么有\(\bigcup_{n=1}^{\infty}A_n\in\mathcal{L}\).

样本空间也是一个\(\lambda\)-系统,有了一些\(\pi\)-系统中没有的合理性质。比如全事件,两个事件的差,单调事件列的极限的封闭性。


\(\sigma\)-代数,两个系统的结合

已经看到,两种系统各有优劣,都只能锁定一部分性质。实际上,两种系统结合起来,就是一个合理定义的最精炼的”定义域”,也就是\(\sigma\)-代数。如果一个集合\(X\)的子集族\(\mathfrak{M}\)既是\(\pi\)-系统又是\(\lambda\)-系统,那么\(\mathfrak{M}\)被称为定义在\(X\)上的\(\sigma\)-代数。

继续从样本空间出发考虑概率论中的例子。首先空集和全事件是肯定要有的。\(\lambda\)-系统就保证了这一点。根据1和2,\(X-X=\varnothing\in\mathcal{L}\)。如果将2中的\(A\)固定为\(X\),那么又可以发现,任意子集的补集也在\(\mathcal{L}\)中。

最后需要考虑可数个并集的情况(这涉及到加法)。考虑到De Morgan定律,这也就解决了交集的问题。\(\pi\)-系统只交代了有限个的交运算,\(\lambda\)-系统只解决了单调集合列的运算,这两个单独看局限性肯定是很大的。但是结合起来就能得到任意可数个并集的情况了。这一点的论证是一个非常有意思的集合运算技巧,在这里演示一下。

设对于\(n=1,2,\cdots\)\(A_n\in\mathfrak{M}\),已经有\(A_n^c\in\mathfrak{M}\)。不难验证\(B_n=\bigcup_{i=1}^{n}A_i=\left(\bigcap_{i=1}^{n}A_i^c\right)^c\in\mathfrak{M}\)。又有\(B_{n}\subset B_{n+1}\),所以\(\bigcup_{n=1}^{\infty}B_n=\bigcup_{n=1}^{A_n}\in\mathfrak{M}\)

综上,定义在\(X\)上的\(\sigma\)-代数\(\mathfrak{M}\)满足三个性质:

  1. \(X\in\mathfrak{M}\).
  2. \(A\in\mathfrak{M}\),那么\(A^c\in\mathfrak{M}\)(这里\(A^c=X-A\)).
  3. 若对\(n=1, 2, \cdots\)\(A_n\in\mathfrak{M}\),那么\(\bigcup A_n\in\mathfrak{M}\).

这时,\(X\)称为可测空间,\(\mathfrak{M}\)中的元素称为可测集合。

一些评注和补充

  1. 不难证明,\(\sigma\)-代数既是\(\pi\)-系统又是\(\lambda\)-系统。也就是说,它满足这两个系统本身的性质,所以集合的差,有限个集合的交、并自然不在话下。
  2. \(\sigma\)-代数中的元素可以有很多个,比如\(\mathcal{P}(X)\),也可以有两个,比如\(\{\varnothing,X\}\)。实际上,\(X\)的任何子集族都可以生成一个最小的\(\sigma\)-代数。特别地,由\(X\)的全体开子集生成的\(\sigma\)-代数\(\mathcal{B}\)是一个有特殊地位的代数,它能和谐地处理连续函数(广义的)。\(\mathcal{B}\)的元素称为Borel集。
  3. \(\pi-\lambda\)定理(两种系统的关系):设\(\mathcal{P}\)\(\mathcal{L}\)分别是一个\(\pi\)-系统和一个\(\lambda\)-系统,而且\(\mathcal{P}\subset\mathcal{L}\),设包含\(\mathcal{P}\)的最小\(\sigma\)-代数为\(\sigma(\mathcal{P})\),那么有\(\sigma(\mathcal{P})\subset\mathcal{L}\)

可测函数

对于一个有界函数,如果这个函数Riemann可积,那么这个函数几乎处处连续。例如单调函数、有可数个甚至有限个间断点的函数。但是在这里讨论Lebesgue函数时并不考虑函数是否连续(尽管连续函数和可测函数有很多联系,这不是这篇博客的重点)。

设函数\(f:X\to{Y}\),定义在\(X\)上的\(\sigma\)代数为\(\mathfrak{M}\),若对任意的开集\(V\subset{Y}\)都有\(f^{-1}(V)\in\mathfrak{M}\)。其中\(f^{-1}(V)=\{x\in{X}:f(x)\in{V}\}\)

如果不了解什么是”开集”,可以先看作开区间的推广,即不包括边界点的集合。比如开区间、平面中不包含边界的集合,而开集的补集为闭集。开集是一个拓扑的基本元素,可测函数的定义保证这样的函数是”不病态”的。其实很好理解: 我们花好大功夫规定了\(\sigma\)-代数,是为了方便我们积分,结果值域里一个开区间就找不到\(\sigma\)-代数里对应的一个\(X\)的合理的子集,那肯定是不合理的。至于闭集。闭集是开集的补集,严格地说,一个集合是开集当且仅当其补集为闭集。又考虑到\(\sigma\)-代数对补集和并集的封闭性,可测函数的合理性就更清楚了。

对于实函数,有一种很有用的判别方法:

如果\(f(x)\)的值域为\(\mathbb{R}\),对于任意的\(\alpha\in\mathbb{R}\)都有\(\{x\in{X}:f(x)>\alpha\}\in\mathfrak{M}\),那么\(f\)为可测函数。

这也是一个最基本的限制条件。考虑到\(\sigma\)-代数的几条性质,不难对全体开区间进行分析。对于复函数,考虑\(f=u+iv\)。如果\(u,v\)都是可测函数,那么\(f\)是可测函数。

对于连续函数,如果\(\mathfrak{M}\)包含全体Borel集,那么连续函数可测。因为对于连续函数\(f\)\(f^{-1}(V)\)一定为开集(可以从\(\varepsilon-\delta\)语言的角度考虑一下)。

特征函数、简单函数

如果\(E\)为可测集,定义函数 \[ \chi_E(x)=\begin{cases}1\quad{x\in{E}}\\ 0\quad{x\notin{E}}\end{cases} \] 那么\(\chi_E(x)\)是一个可测函数。对于离散集合,每个点都应该看成开集。\(\chi\)被称为特征函数。


简单函数是指值域只有有限个点的函数,也就是所谓”阶梯函数”,但是要注意这里的阶梯并不一定是单调的。Lebesgue积分就是用阶梯函数的积分逼近的。如果找出每个取值点的原象,那么一个简单函数可以写成特征函数的形式。也就是说,设简单函数\(s\)的取值为\(\alpha_1,\cdots,\alpha_n\),又令\(A_i=\{x:s(x)=\alpha_i\}\),那么不难得到 \[ s=\sum_{i=1}^{n}\alpha_i\chi_{A_i} \] 也不难发现,如果每个集合\(A_i\)都是可测集,那么\(s\)为可测函数。

任意可测函数都可以用简单函数逼近。也就是说,

设函数\(f:X\to[0,+\infty]\)为可测函数,存在定义在\(X\)上的可测简单函数\(s_n(x)\)使得

  1. \(0\leq s_1\leq s_2\leq\cdots\leq f\).
  2. 对任意\(x\in{X}\)\(s_n(x)\to f(x)(n\to\infty)\).

如果\(f\)既有正值又有负值,那么可以讨论\(f^{+}=\text{max}(f,0)\)\(f^{-}=-\text{min}(f,0)\)即可,这两部分分别逼近之后又可以通过\(f=f^{+}-f^{-}\)结合起来。

测度、测度空间

做完了被积函数的工作之后再回到集合的”大小”这个概念上。实际上概率论中某一事件的概率就 一种测度。只不过这一测度的值域是\([0,1]\),而一般的测度的值域是\([0,+\infty]\)。概率是一个从集合到\([0,1]\)的映射,另外还有一点我想大家都很熟悉。如果\(A\cap{B}=\varnothing\),那么\(P(A\cup{B})=P(A)+P(B)\)。这其实是基于测度定义的一个推广,严格地说,

一个正测度是定义在一个\(\sigma\)-代数\(\mathfrak{M}\)上的函数\(\mu\),其值域为\([0,+\infty]\),而且满足可列可加性。也就是说,对互不相交的集合列\(\{A_k\}\),有 \[ \mu(\bigcup_{k=1}^{\infty}A_i)=\sum_{i=1}^{\infty}\mu(A_i) \]

对于\(\mu\),假设至少有一个\(A\in\mathfrak{M}\)使得\(\mu(A)<+\infty\)

和Riemann积分最接近的测度就是Lebesgue积分\(m\)。粗略地说,\(m([a,b])=b-a\)。这代表了Euclidean空间中点集的”体积”。如果是离散集合,设\(\mu(E)\)表示\(E\)中元素的个数,那么\(\mu\)也构成一个测度。但是一个集合是不是Lebesgue可测是一个比较复杂的问题。这在以后会解释。

一个测度空间指的是一个可测空间和一个定义在可测空间的\(\sigma\)-代数上的正测度。复测度是一个复值函数,定义域和正测度相同,而且满足可列可加性。

不难发现,\(\mu(\varnothing)=0\),对于有限个互不相交的集合,可列可加性也是成立的(对于\(n\)个集合,将\(n+1\)个以后的集合看成空集即可)。

Lebesgue积分的构造

终于到了Lebesgue积分了。在进行之前先回顾一下我们做了什么工作。首先,考虑到积分是在集合的子集上(可以考虑\(\mathbb{R}\)的一些子集)下文章,我们找到了这个子集族需要满足的条件,也就是说,是一个\(\sigma\)-代数。为了测量一个集合的”大小”,我们定义了测度这个概念。这是”区间长度”的非常和谐的抽象推广。从一般的函数到所有可测的实函数、复函数,主要会通过下面三步进行。

简单函数

考虑非负可测简单函数(其他情况会另外考虑)\(s=\sum_{i=1}^{n}\alpha_{i}\chi_{A_i}\)\(s\)为可测函数也就是说,对任意的\(A_i\)都有\(A_i\in\mathfrak{M}\),这样的话\(\mu(A_i)\)就是存在的,否则运算没法进行,这也是函数可测性的意义体现。

回到博客开头,考虑面积,就需要考虑函数值(\(\alpha_i\))和区间长度。这里的抽象的”区间长度”变成了\(\mu(A_i)\)。如果积分的集合是\(E\in\mathfrak{M}\),那么就有\(A_i\cap{E}\in\mathfrak{M}\)(因为\(\mathfrak{M}\)\(\pi\)-系统!)。那么直接求和就行了: \[ \int_{E}sd\mu = \sum_{i=1}^{n}\alpha_{i}\mu(A_i\cap{E}) \]

如果\(\mu\)表示的是实际的区间长度,那么这就是简单的面积求和; 如果\(\mu\)是一个概率测度,那么这就是计算了数学期望(随机变量是一个可测函数)。这里还有一个很有意思的例子:

如果\(X\)表示了你全部的课程,每门课用\(A_i\)表示,\(\mu(A_i)\)表示了这门课的学分,\(\alpha_i\)表示了这门课的绩点,那么这个Lebesgue积分再除以总学分就是你的GPA。

这里还需要定义\(0*\infty=0\)。可能有点别扭,但是这种情况还是要考虑的。比如有的时候\(\alpha_i=0\)(别考虑GPA了!)而\(\mu(A_i\cap{E})=\infty\)。这个定义也是有必要的。比如\(f(x)=0\)\(\mathbb{R}\)上的积分应该是\(0\)而不是别的。

全体非负可测实函数

如果\(f:X\to[0,+\infty]\)为可测函数,那么对于\(E\in\mathfrak{M}\)定义 \[ \int_{E}fd\mu=\sup\int_{E}sd\mu \] 其中上确界取遍所有\(0\leq{s}\leq{f}\)的可测简单函数。而我们已经知道,可测函数可以被简单函数逼近。所以这可以看成一个被简单函数逼近的过程。

全体复函数

最开始我们只讨论了非负实函数。其余两种情况,如果涉及到负数,可能计算上确界有点不合适; 对复数更不合适,因为复数没有大小。但是好在我们可以将这两种情况统一起来。设\(f=u+iv\)(\(v\)可能恒等于\(0\)),那么就设 \[ \int_{E}fd\mu=\int_{E}u^+d\mu-\int_{E}u^-d\mu+i\left(\int_{E}v^+d\mu-\int_{E}v^-d\mu\right) \]

总而言之,从计算矩形面积,变成计算抽象的集合测度和函数值的乘积,推广之后就得到了Lebesgue积分。以后会详细论证Riemann积分和Lebesgue积分的具体关系。Lebesgue积分虽然在计算上并不一定有很好的优势,但是在抽象论证过程中有了更多的可能性。以后也会讲到,Lebesgue积分在处理收敛问题时的便利之处,最开始的一个题也就很简单了。

欧拉反射公式和利用Fourier级数的证明

\(\Gamma\)函数将自然数和连续函数很自然地结合起来,在各个领域有着各种意想不到的作用。 它的细节绝对不是只言片语能解释完的。 在这里我会介绍一个很有意思的公式: 欧拉反射公式。 当然,如果视野仅仅停留在一个公式上,那肯定不行。

欧拉反射公式

\[ \Gamma(x)\Gamma(1-x)=\frac{\pi}{\sin\pi{x}}\quad 0<x<1 \]

一些简单的应用

不如先看一下能直接利用它得到什么结论。 两个\(\Gamma\)函数的乘积,自然就和\(B\)函数能建立起联系。 显然我们有, \[ \Gamma(x)\Gamma(1-x)=\frac{\Gamma(x)\Gamma(1-x)}{\Gamma(x+1-x)}=B(x,1-x) \]

同时,再利用\(B\)函数的三角函数变形式,就有 \[ B(x,1-x)=2\int_{0}^{\pi/2}\cos^{2x-1}\theta\sin^{2(1-x)-1}\theta d\theta=2\int_{0}^{\pi/2}\cot^{2x-1}\theta d\theta \]

这时,一个很奇妙的结论就出现了:
\[ \int_{0}^{\pi/2}\cot^{2x-1}\theta d\theta=\frac{\pi}{2\sin\pi{x}}\quad 0<x<1 \]

如果直接计算这个积分是很困难的。 但是,这两个欧拉积分却为我们提供了一个捷径。 那么正切函数的怎么计算?其实计算方式是一样的。 这是因为,\(B(p,q)=B(q,p)\)(为什么?),如果计算\(B(1-x,x)\),就能得到\(\int_{0}^{\pi/2}\tan^{2x-1}\theta d\theta\)的值了。

接下来,我们试着算一下一个很“基本”的定积分 \[ I_p=\int_{0}^{\infty}\frac{1}{1+x^p}dx\quad p>1 \]

这个时候因式分解已经不可行了。 实际上有理式因式分解本来就不一定是最靠谱的办法。 如果要分解\((1+x^{2019})\),那就太折磨人了(有2019个复根!)。 而如果利用余元公式,根本不需要这些工作。

那么怎么才能通过欧拉反射公式解决呢? 首先将它转换成一个\(B\)函数。

\(x^p=u\in[0,+\infty)\)。 此时 \[ \begin{aligned} I_p &= \int_{0}^{+\infty}\frac{1}{1+u}du^{\frac{1}{p}} \\ &= \frac{1}{p}\int_{0}^{+\infty}\frac{u^{\frac{1}{p}-1}}{1+u}du \end{aligned} \]

再令\(\frac{u}{1+u}=v\in[0,1)\),又能得到 \[ \begin{aligned} I_p &= \frac{1}{p}\int_{0}^{+\infty}\left(\frac{u}{1+u}\right)^{\frac{1}{p}-1}\left(\frac{1}{1+u}\right)^{2-\frac{1}{p}}du \\ &= \frac{1}{p}\int_{0}^{1}v^{\frac{1}{p}-1}(1-v)^{-\frac{1}{p}}dv \\ &= \frac{1}{p}B(\frac{1}{p},1-\frac{1}{p}) \\ &= \frac{\pi}{p\sin\frac{\pi}{p}} \end{aligned} \]

也就是说,对于这类积分,有一个普适性的结果: \[ \int_{0}^{\infty}\frac{1}{1+x^p}dx=\frac{\pi}{p\sin\frac{\pi}{p}} \quad p>1 \]

繁杂的因式分解突然消失了(更何况如果\(p\)不是整数,根本没有多项式因式分解的说法)。

这时还可以计算一个极限: \[ \lim_{p\to\infty}I_p=\lim_{p\to\infty}\frac{\frac{\pi}{p}}{\sin\frac{\pi}{p}}=1 \]

最后我们利用这一个公式计算一个很“不基本”的反常积分。 \[ \int_{0}^{1}\ln\Gamma(x)dx. \] 利用微积分换元公式,我们有 \[ \int_0^1\ln\Gamma(x)dx=\int_1^0 \ln\Gamma(1-x)d(1-x)=\int_0^1\ln\Gamma(1-x)dx. \] 从而原积分可以写成自己和自己的和,也就是说, \[ \begin{aligned} \int_0^1\ln\Gamma(x)dx&=\frac{1}{2}\int_0^1\ln\Gamma(x)\Gamma(1-x)dx \\ &=\frac{1}{2}\int_0^1\ln\frac{\pi}{\sin\pi{x}}dx \\ &=\frac{1}{2}\ln\pi-\frac{1}{2}\int_0^1\ln\sin{\pi{x}}dx \\ &=\frac{1}{2}\ln(2\pi) \end{aligned} \]

公式的证明

不得不说这是一件比较困难的事情。 我会在这里先介绍一种利用Arzela控制收敛定理进行证明的办法。

引理1: Arzela控制收敛定理(Arzela dominated convergence theorem,1885)

\({f_n}\)是在\([a,b]\)上收敛于\(f\)的可积函数列(并不要求一致收敛),若\(f\)也可积,且\({f_n}\)\([a,b]\)上一致有界,即存在\(M>0\),使得对每个\(n\)和所有\(x\in[a,b]\)同时满足\(|f_n(x)|\leq{M}\),则有 \[ \lim_{n\to\infty}\int_{a}^{b}f_n(x)dx=\int_{a}^{b}\lim_{n \to\infty} f_n(x)dx=\int_{a}^{b}f(x)dx \]

上面这个式子本来需要一致收敛(这是非常严苛的),但是Arzela发现只需要收敛和一致有界。 但是这个定理登场一百多年来,一直没有一个让人满意的初等证明。 原因一个字:难。 如果感兴趣可以参考这里

引理2: 余割函数的部分分式展开

\[ \csc{x}=\frac{1}{x}+\sum_{n=1}^{\infty}(-1)^{n}\frac{2x}{x^2-n^2\pi^2} \]

怎么得到的这个公式? 利用傅里叶展开。

注意到 \[ \cos\alpha{t} = \frac{\sin\pi\alpha}{\pi\alpha}+\sum_{n=1}^{\infty}(-1)^{n}\frac{2\alpha}{\pi(\alpha^2-n^2)}\sin\alpha\pi\cos{nt} \]

\(\alpha\)为整数时,\(\csc\alpha\pi\)不存在。 \(\alpha\)不是整数时,令\(t=0\)\(\alpha\pi=x\)。 此时有 \[ 1=\frac{\sin{x}}{x}+\sum_{n=1}^{\infty}(-1)^{n}\frac{2x}{x^2-n^2\pi^2}\sin{x} \]

移项之后即得结论。

证明的第一步: 用定积分表示反射公式

我们已经知道\(\Gamma(x)\Gamma(1-x)=B(x,1-x)\),但这是远远不够的。 两个幂还有一个减号不是很好处理。

\(t=\frac{1}{1+y}\),那么就有

\[ B(x,1-x)=\int_{0}^{\infty}t^{1-x}(1-t)^{-x}dt=\int_{0}^{\infty}\frac{1}{y^x(1+y)}dy \]

证明的第二步: 反常积分的计算

实际上要做的就是证明第一步得到的结果等于\(\pi\csc{\pi{x}}\)。 这个时候上文给出的两个引理就能用上了。

将这个积分分割成\((0,1)\)\([1,+\infty)\)两个部分。 在\((0,1)\)上,利用幂级数的知识,很容易得到 \[ \frac{1}{y^x(1+y)}=\sum_{n=0}^{\infty}(-1)^{n}y^{n-x} \]

等式右侧的函数虽然不是一致收敛,但是\(n\geq{1}\)时,这个级数的部分和一致有界,这时就可以用Arzela控制收敛定理了。 也就是说,可以直接交换极限符号: \[ \begin{aligned} \int_{0}^{1}\frac{dy}{y^x(1+y)}&=\int_{0}^{1}\left(\frac{1}{y^x}+\sum(-1)^{n}y^{n-x}\right)dy \\ &=\frac{1}{1-x}+\sum(-1)^n\int_{0}^{1}y^{n-x}dy \\ &=\sum\frac{(-1)^{n-1}}{n-x} \end{aligned} \]

\([1,+\infty)\)的部分,只需令\(u=\frac{1}{y}\),就回到了\((0,1)\)上的情况了: \[ \begin{aligned} \int_{1}^{+\infty}\frac{dy}{y^x(1+y)}&=\int_{0}^{1}\frac{du}{u^{1-x}(1+u)} \\ &=\sum_{n=1}^{\infty}\frac{(-1)^{n-1}}{n-(1-x)}=\frac{1}{x}+\sum\frac{(-1)^{n}}{n+x} \end{aligned} \]

最后,将两部分接起来,就能得到 \[ \begin{aligned} \int_{0}^{+\infty}\frac{dy}{y^x(1+y)}&=\frac{1}{x}+\sum(-1)^{n}\left(\frac{1}{x-n}+\frac{1}{x+n}\right) \\ &=\frac{1}{x}+\sum(-1)^{n}\frac{2x}{x^2-n^2} \end{aligned} \]

\[ \begin{aligned} \pi\csc\pi{x}&=\pi\left(\frac{1}{\pi{x}}+\sum_{n=1}^{\infty}(-1)^{n}\frac{2\pi x}{\pi^2x^2-n^2\pi^2}\right) \\ &=\frac{1}{x}+\sum(-1)^{n}\frac{2x}{x^2-n^2} \end{aligned} \]

此即 \[ B(x,1-x)=\pi\csc\pi{x} \] 即为所求的结论。

最后要说的

在实数范围证明这个问题确实是要花好大的功夫——甚至都用到了傅里叶级数。 但是这一路上也可以看到很多重要的技巧,回顾了很多基础知识。 还是那句话,如果视野只局限在这个公式,是很不划算的。

并不新颖的观点:不要追求生产力、效率了

实际上,在十几年前,Get Things Done、Zen to Done等等“生产力圣经”闪亮登场并得到追捧以来,就有了反对的声音,所以我说,这是不是什么新颖的观点。随着互联网的发展,“生产力”的信奉者们开发了工具,所谓To-Do List,所谓“番茄钟”,这也算是一门生意。我也曾经是一个(比较失败)的追随者,用所谓Todoist,追求他们给我评价的Karma,这似乎代表了我的“效率”。我记得我也曾经到过不低的分数。但我现在觉得,我应该背叛了。

有一种观点:科学发展的一大动力是“懒惰”。人们为了能更简单地实现更困难的事情,想尽了办法。就比如说,你现在直接在一个电子设备的屏幕上看到了这篇文章,而不是多少年以后才通过口耳相传听到这篇文章的不知道被改了多少次的版本。更简单地实现了更加困难的事情,人类也实现了进步。放心,我不是反对科技发展然后向往2000年前的生活。但我想问:“生产力工具”帮助我们实现了什么?更合理地把自己的日程塞成腊肠?这样做真的有用吗?所以追求“生产力”是为了什么?为了减轻负担,还是为了让自己更忙碌?天天高负荷运转是为了什么?

超忆症患者的压力肯定很大——每天所有的对话、所有无关紧要的细节、某个人在何时何地穿着怎样,都能在许多年后很不情愿地和电影回放一样在脑海复现。追求“生产力”的时候是不是也在追求这种压力?不如问问自己,自己在追求着什么。我想,追求一种没有目的的忙碌,没有目的的成就感,不是好现象。还是说,追求“生产力工具”给打出的高分?这种高分真能说明什么吗?

另外一个问题:把自己的生活交给一堆不认识的人写的计算机程序是个好主意吗?把购物清单、备忘录交给计算机程序(也可以交给纸笔),当然是个不错的主意。这好比说,我不想记住这些东西,交给你记吧,到时候给我报告一下。但是各种生产力工具扮演的角色就有点不一样了。最开始,它们也扮演着打杂的工作。渐渐地,它利用”成就感“当作诱饵,逐渐接管了用户的生活。用户追求着”生产力“、”效率“带来的成就感(想得到真正的满足是很困难的),换来的可能是莫名其妙的忙碌,从而对工具产生更大的依赖(我觉得很有必要审视一下那些付费内容)。我不否认,一些特殊的工作,可以减少一些不必要的麻烦。就好说,联合收割机的成本和效果通常比手动劳作高。但是,农民如果把精力用在过于追求联合收割机的美观性、驾驶操作体验,就显得很没必要。农忙之后我想没有谁会闲着没事碰它。

19世纪末期,美国人泰勒提出了“科学管理”的理论,是西方管理学的源头之一。他的理论又被叫做“泰勒制(Taylorism)”(我更愿意叫做泰勒主义)。这套理论追求生产效率、商业效益,渐渐派生成了一个“宗教”:我工作,故我在。他认为,员工作为技术工具意义上的生产工具,是寻找最佳方案或者以最佳方案工作的机器。在生产管理中这样做自然是可以理解的。但是把自己的生活搞成这般是很不现实的。把自己的喜怒哀乐、人际交往、精神追求全关机(当然也就别说啥拼搏、奋斗、吃苦了),然后“高效工作”,到底为了什么?自己不能当作自己的工具或者机器。人们追求“生产力”、“效率”,把很久以后的事情提前完成,然后安排更多的事情忙。我觉得可以再写一条21世纪的教条:我忙,故我在。“生产力”、“效率”赐我们以成就感(还有成功?那不一定),但是我们祭上了自己的闲余时间,同时也要承受不该得的压力、焦虑。这种“宗教”非常“浪漫”,但问题是,工作量真的不能说明全部。

高等数学入门:上下确界及其极限形式

问题的引入: 最大值、最小值的局限性

我们先考虑一个简单的函数: \[ f(x)=x\quad x\in(0,1) \]

那么问题来了: 这个函数有没有最小值或者最大值? 答案是没有. 定义域中的严格不等式给我们制造了无法得到严格解的麻烦. 可能读者会想到, 这是个单调函数, 可以使用极限解决这个问题. 但是这样做局限性太大了. 如果我们连函数的表达式都不知道, 又要到哪个极限找“最值”呢? 我们要做的是, 找到一个数, 它描述集合的范围时, 不依赖于最大值最小值的存在, 而且它不依赖于极限.

理论基础: 实数是有序的

我们一直以来接触各种不等式, 最基本的理论依据就是, 实数的顺序. 这个顺序的意思就是大小关系. 没有顺序关系的数也是有的, 例如复数. 实数的顺序其实可以叙述成以下两点:

  1. 如果\(x\in\mathbb{R}\)而且\(y\in\mathbb{R}\), 那么下面三个关系有且仅有一个成立 \[ x<y\quad x=y\quad y<x \]
  2. 如果\(x,y,z\in\mathbb{R}\), 而且有\(x<y\)\(y<z\), 那么\(x<z\)

至于“\(\leq\)”,应该理解成小于或等于, “或”的意思在这里是并没有强调哪个一定成立.

确界的定义

我们接下来只讨论上界. 也就是说, 我们只讨论小于的情况. 至于另一侧, 将小于号换成大于号即可.

什么叫有上界

取集合\(E\subset\mathbb{R}\), 如果存在\(\beta\in\mathbb{R}\)使得对任意\(x\in{E}\)满足不等式\(x\leq\beta\), 那么就称\(E\)有上界, \(\beta\)就是\(E\)的一个上界.

这其实就是一个存在命题. 只要满足就够了. 满足之后呢? 没有然后了. 剩下的细节在这里不重要. 这和极限很类似. 一个很简单的例子: \((-\infty,1]\)就是有上界的. 而且任意的上界\(\beta\)都满足\(\beta\in[1,+\infty)\).

上确界: 最小的上界

有的时候, 我们需要知道一个严格最小的上界, 这就是上确界. 首先, 我们给出上确界的定义.

对于有上界的集合\(E\), 假设存在一个\(\alpha\in\mathbb{R}\)满足以下条件, 那么就称它为\(E\)的上确界, 记作\(\alpha=\sup{E}\):

  • \(\alpha\)\(E\)的一个上界

  • 如果\(\gamma<\alpha\), 那么\(\gamma\)不是\(E\)的上界

下确界可以通过相反的不等式进行确定, 记作\(\alpha=\inf{E}\). 当然\(\sup\)\(\inf\)后面也不一定要跟一个集合, 也可以跟一个函数或者数列. 回到开头的那个函数, 我们能很容易得到 \[ \sup{f(x)}=1\quad\inf{f(x)}=0 \]

这时我们不再依赖于极限, 也可以发现, 如果函数的最大值或最小值存在, 那么它一定等于上确界或下确界, 但是上下确界存在时, 最值不一定存在. 在函数最值不存在时, 我们仍然能利用确界对函数的范围进行严格的分析, 而且不一定需要求极限, 这体现了上下确界的价值所在. 在这里建议读者写几个函数, 再试着求以下上下确界.

确界的极限形式(上极限、下极限)

数列形式

\(\{a_n\}\)\(\mathbb{R}\)里的一个数列, 并且定义 \[ b_k=\sup\{a_k,a_{k+1},a_{k+2},\cdots\} \]

再定义 \[ \beta=\inf\{b_1,b_2,b_3,\cdots\} \]

那么就有 \[ \beta=\limsup_{n\to\infty}a_n \]

这就完成了上极限的定义. 而下极限的求法就是将上面的上确界、下确界交换顺序即可. 可是这里为什么出现了极限符号? 这是因为 \[ b_1\geq b_2\geq b_3\geq\cdots\geq\beta \]

所以有 \[ \lim\limits_{k\to\infty}b_k=\beta \]

此外,\(\{a_n\}\)中有一个子列\(\{a_{n_i}\}\)收敛于\(\beta\), 而且\(\beta\)是具有这个性质最大的数.

这其实还是解决了一件事情, 如果一个数列发散, 我们还是有可能利用上下确界的极限形式来研究极限的一些性质. 一个很简单的例子比如 \[ \limsup_{n\to\infty}{(-1)^n}=1\quad\liminf_{n\to\infty}{(-1)^n}=-1 \]

函数形式

函数中上下极限的求法其实和数列形式是非常类似的. 我们先举一个上极限的例子, 理解构建过程时也可以利用这个例子: \[ \limsup_{x\to{0}}\sin\frac{1}{x}=1 \]

对于函数, 值域可能是连续集合. 求\(x\to{a}\)时的上极限, 我们先求出\(x\to{a}\)时, \(f(x)\)的上确界构成的集合 \[ U=\{y|y=\sup\{f(x)|x\in(a-\varepsilon,a+\varepsilon)\}\} \]

那么上极限就是 \[ \limsup_{x\to{a}}f(x)=\inf{U} \]

总结

我们单纯利用不等式, 建立起一个非常严格,也非常有应用价值的概念: 确界. 这个概念源于最值, 又高于最值. 当然确界和最值什么时候相等又是一个拓扑学问题. 这又是另外一个话题了.

调和级数发散的若干证明

命题的提出

\(S_n=1+\frac{1}{2}+\frac{1}{3}+\cdots+\frac{1}{n}\), 求证\(\{S_n\}\)发散

这个数列的发散是很难猜出来的, 因为它的增长速度很慢, 会给人以收敛的错觉. 如果用计算机手动运算, 会发现直到\(12367\)项, 这个数列的值才超过\(10\). 但缓慢的增长速度不能说明敛散性. 接下来会给出一系列精彩的证明, 从14~17世纪纯粹的分式不等式到近现代涉及到微积分等方法.

遥远的中世纪: Nicole Oresme(1350?-1360?)

这个证明方式是历史上最早的证明, 涉及到简单的不等式放缩和数学归纳.

考虑到不等式 \[ \underbrace{\frac{1}{n+1}+\frac{1}{n+2}+\cdots+\frac{1}{2n}}_{\text{$n$项}}>n\cdot\frac{1}{2n}=\frac{1}{2} \]

我们分析\(\{S_{2^n}\}\)这个数列, 发现 \[ S_1=1+0\cdot\frac{1}{2} \] \[ S_2=1+1\cdot\frac{1}{2} \] \[ S_4=1+\frac{1}{2}+\frac{1}{2+1}+\frac{1}{2\cdot{2}}>1+\frac{1}{2}+\frac{1}{2}=1+2\cdot\frac{1}{2} \] \[ S_8=S_4+\frac{1}{4+1}+\cdots+\frac{1}{4\cdot{2}}>1+3\cdot\frac{1}{2} \]

递推下去, 我们能得到 \[ S_{2^n}\geq 1+n\cdot\frac{1}{2} \]

这说明\(S_n\)有一个子列无界, 故原数列发散. 证毕.

其实不用局限在\(2^n\)这一部分, 用同样的办法, 我们能得到 \[ S_{M^n}\geq 1+n\cdot\frac{M-1}{M} \]

Pietro Mengoli(17世纪中叶)

考虑不等式 \[ \frac{1}{n-1}+\frac{1}{n}+\frac{1}{n+1}=\frac{1}{n}+\frac{2n}{n^2-1}>\frac{1}{n}+\frac{2n}{n^2}=\frac{3}{n} \]

假设原级数收敛到\(S\), 那么有 \[ \begin{aligned} S&=1+\left(\frac{1}{2}+\frac{1}{3}+\frac{1}{4}\right)+\left(\frac{1}{5}+\frac{1}{6}+\frac{1}{7}\right)+\cdots\\ &>1+\frac{3}{3}+\frac{3}{6}+\frac{3}{9}+\cdots\\ &=1+S \end{aligned} \]

\(S>1+S\)无解, 这说明极限不存在. 证毕.

Bernoulli兄弟(1689)

Bernoulli兄弟的证明发布于 Tractatus de se-riebus infinitis 一书中.

Jacob Bernoulli

对任意正整数有 \[ \underbrace{\frac{1}{n+1}+\frac{1}{n+2}+\cdots+\frac{1}{n^2}}_\text{$n^2-n$项}>\frac{n^2-n}{n^2}=1-\frac{1}{n} \]

也就是说 \[ \frac{1}{n}+\frac{1}{n+1}+\cdots+\frac{1}{n^2}>1 \]

因此有 \[ \begin{aligned} \sum_{n=1}^{\infty}\frac{1}{n}&=1+\left(\frac{1}{2}+\frac{1}{3}+\frac{1}{4}\right)+\left(\frac{1}{5}+\cdots+\frac{1}{25}\right)+\cdots\\ &>1+1+1+\cdots \end{aligned} \]

原级数发散. 证毕.

Johann Bernoulli

考虑级数 \[ \sum_{n=k}^{\infty}\left(\frac{1}{n}-\frac{1}{n+1}\right)=\sum_{n=k}^{\infty}\frac{1}{n(n+1)}=\frac{1}{k} \]

同样, 我们假设级数收敛于\(S\) \[ \begin{aligned} S&=1+\frac{1}{2}+\frac{1}{3}+\frac{1}{4}+\frac{1}{5}+\cdots\\ &=1+\frac{1}{2}+\frac{2}{6}+\frac{3}{12}+\frac{4}{20}+\frac{5}{30}+\cdots\\ &=1+\left(\frac{1}{2}+\frac{1}{6}+\frac{1}{12}+\cdots\right)+\left(\frac{1}{6}+\frac{1}{12}+\frac{1}{20}+\cdots\right)+\cdots\\ &=1+1+\frac{1}{2}+\frac{1}{3}+\cdots\\ &=1+S \end{aligned} \]\(S=1+S\)无解, 这说明极限不存在.

三种Cauchy判别法

Cauchy的三种判别法是比较常见且应用非常广泛的, 在微积分课程中也是常客, 现将三种方法列在下面

Cauchy积分判别法

\(f\)\([1,+\infty)\)单调减少, 则级数\(\sum_{n=1}^{\infty}f(n)\)与广义积分\(\int_{1}^{\infty}f(x)dx\)同敛散

代入\(f(x)=\frac{1}{x}\)即可.

Cauchy凝聚判别法

\(\{a_n\}\)是单调减少的整数列, 则正项级数\(\sum_{n=1}^{\infty}a_n\)收敛的充分必要条件是凝聚项级数\(\sum_{n=1}^{\infty}2^na_{2^n}\)收敛

这个判别法可以很简单地对\(a_n=\frac{1}{n^p}\)对应级数的敛散性进行讨论.

Cauchy收敛准则

可以发现, \(S_{2n}-S_n=\frac{1}{n}+\frac{1}{n+1}+\cdots+\frac{1}{2n}>\frac{n}{2n}=\frac{1}{2}\).

这说明, 存在\(\varepsilon=\frac{1}{2}\), 总有\(|S_{2n}-S_n|>\varepsilon\). 这说明了这个级数的发散.

Honsberger(1976)

这个证明是\(e^{x}\geq{1+x}\)的巧用.

考虑\(e^{S_n}\)这个数列, 有

\[ \begin{aligned} e^{S_n}&=\text{exp}\left(1+\frac{1}{2}+\frac{1}{3}+\frac{1}{4}+\cdots+\frac{1}{n}\right)\\ &=e^{1}e^{\frac{1}{2}}e^{\frac{1}{3}}e^{\frac{1}{4}}\cdots e^{\frac{1}{n}}\\ &>\left(1+1\right)\left(1+\frac{1}{2}\right)\cdots\left(1+\frac{1}{n}\right)\\ &=n+1 \end{aligned} \] \(e^{S_n}\)的发散便说明了\(S_n\)的发散.

洛必达法则的几种不同的证明

前言

洛必达法则我想甚至不少高中生甚至初中生都听说过,知道怎么进行简单的应用。简单点说,处理\(\frac{0}{0}\)的函数时,对上下进行求导,可能会很大程度上简化计算。但是洛必达法则为什么能奏效? 能不能用严格的数理语言进行论证? 这是这篇文章需要解决的.

洛必达法则的完整论述

假设有定义在\((a,b)\)可导的实函数\(f\)\(g\),且\(g’(x)\neq0\)对所有\(x\in(a,b)\)恒成立,其中\(a\)\(b\)满足 \[ -\infty\leq{a}<{b}\leq+\infty.\]
若有\[\lim_{x\to a}\frac{f’(x)}{g’(x)}=A,\]且如果\[\lim_{x\to a}f(x)=\lim_{x\to a}g(x)=0,\]\[\lim_{x\to a}g(x)=+\infty,\]那么\[\lim_{x\to a}\frac{f(x)}{g(x)}=A\]类似的结论对\(x\to{b}\)或者\(g(x)\to-\infty\)也成立。

证明1:线性近似

波努利最开始的”证明”

洛必达法则首次出现于1696年洛必达的 Analyse des Infiniment Petits pour l'Intelligence des Lignes Courbes 一书中。这本书当然以”洛必达法则”闻名于世。证明是这样完成的: \[ \frac{f(a+dx)}{g(a+dx)}=\frac{f(a)+f’(a)dx}{g(a)+g’(a)dx}=\frac{f’(a)dx}{g’(a)dx}=\frac{f’(a)}{g’(a)} \]

这个证明很好理解,线性近似展开,再考虑到\(f(a)=g(a)=0\)就得到结果。但是这个做法肯定是不合适的,\(dx\)在这里非常模糊,也不方便表达\(x\to\infty\)的情况。关于历史内容可以参见 The Historical Development of the Calculus 一书。

线性近似的严格证明

首先,这里只讨论\(h\to0\)的情况。实际上,对于其他情况,可以作换元。例如\(h\to\infty\)时,可以利用\(u=\frac{1}{h}\),那么又转换成了\(u\to0\)的情况。另外我们只讨论函数趋近于\(0\)的情况。因为趋近于无穷时函数的线性近似可能无法处理。例如\(y=\frac{1}{x}\)\(x=0\)附近是没有近似的。

对函数导数有 \[ f’(x) = \lim_{h\to 0} \frac{f(x+h)-f(x)}{h}, \]

我们可以写成 \[ f’(x) = \frac{f(x+h)-f(x)}{h} + r(h) \]

其中\(\lim\limits_{h\to0}r(h)=0\),且\(r(h)\)为连续函数。进行代数变形(这里\(r(h)\)的正负进行了调整),我们的得到线性近似 \[ f(x+h)=f(x)+f’(x)h+r(h)h \]

同样可以写出\(g(x)\)的线性近似 \[ g(x+h)=g(x)+g’(x)h+s(h)h \]

那么就能得到 \[ \frac{f(a+h)}{g(a+h)}=\frac{f(a)+f’(a)h+r(h)h}{g(a)+g’(a)h+s(h)h}=\frac{f’(a)h+r(h)h}{g’(a)h+s(h)h}=\frac{f’(a)+r(h)}{g’(a)+s(h)} \]

\(h\to0\)时,\(r(h)\to0\)\(s(h)\to0\),故得到了结论。

证明2:中值定理

这个证明中,我们会利用柯西中值定理(GMVT)对所有的情况进行完整的证明,这期间涉及到一些不等式运算技巧。证明来自W. Rudin的 Principles Of Mathematical Analysis,我会在其中加上一些额外的解释。

情况1: \(-\infty\leq{A}<+\infty\)

选取实数\(\varepsilon>0\)\(q\)使得\(A<A+\varepsilon<q\)。因为\(\frac{f(x)}{g(x)}\to{A}\),必定有实数\(\delta\in(0,b-a)\)使得对于所有\(a<x<a+\delta\),始终有\(-\varepsilon<\frac{f’(x)}{g’(x)}-A<\varepsilon\)。也就是说 \[\frac{f’(x)}{g’(x)}<A+\varepsilon.\]

\(a<x<y<c\),由GMVT可知,存在\(t\in(x,y)\)使得不等式(A)成立: \[ \frac{f(x)-f(y)}{g(x)-g(y)}=\frac{f’(t)}{g’(t)}<A+\varepsilon \] 最后一个不等式成立是因为\(t\in(x,y)\subset(a,b)\),而\((a,b)\)中这个不等式成立。

情况1.1: \(g(x)\to0\)

\(x\to{a}\),此时关于\(x\)\(y\)的不等式会有\(\frac{f(y)}{g(y)}\leq{A+\varepsilon}<q\quad(a<y<a+\delta)\)

也就是说,对任意实数\(\varepsilon>0\),有\(\delta>0\),使得\(a<y<a+\delta\)时,满足不等式(B): \[ \frac{f(y)}{g(y)}\leq\varepsilon+A<q \]

(注意:这个地方并没有用\(\varepsilon-\delta\)证明了这个情况下的收敛)

情况1.2: \(g(x)\to+\infty\)

\(r=A+\varepsilon\)。固定不等式(A)中的\(y\),因为\(g(x)\to+\infty\),能找到一个值\(c\in(a,b)\)使得\(g(x)>g(y)\)\(g(x)>0\)对所有\(x\in(a,c)\)同时成立。那么不等式(A)两边同时乘以\([g(x)-g(y)]/g(x)\),能得到不等式(C) \[ \frac{f(x)}{g(x)}<r-r\frac{g(y)}{g(x)}+\frac{f(y)}{g(x)}\quad(a<x<c) \]

\(x\to{a}\),因为\(g(x)\to+\infty\),有点\(c_1\in(a,c)\)使得不等式(D)成立: \[ \frac{f(x)}{g(x)}<q\quad(a<x<c_1) \]

情况1.1和1.2的整合

不等式(B)和(D)都只说明,存在\(c\in(a,b)\)使得对于所有\(x\in(a,c)\),满足\(\frac{f(x)}{g(x)}<q\).但是\(\frac{f(x)}{g(x)}\)\(A\)的关系并不知道。

这里要注意,不等式(B)和(D)都只在\(q>A\)时成立,也就是说,如果\(q=A\),那么有\(\frac{f(x)}{g(x)}\geq{q}=A\)。也就是说,对于所有\(q>A\),都存在\(c\in(a,b)\),使得对于所有\(x\in(a,c)\),满足 \(A\leq\frac{f(x)}{g(x)}<q\),若令\(q\to{A}\),就能得到\(\frac{f(x)}{g(x)}\to{A}\)

情况2: \(-\infty<{A}\leq+\infty\)

这个情况是和情况1完全类似的。同理可证,对任意\(p\),当且仅当\(p<A\)时,总有\(c’\in(a,b)\),使得对于所有\(x\in(a,c’)\),满足\(p<\frac{f(x)}{g(x)}\leq{A}\)

结合\(A\)的这两种情况,原命题得证。

证明中几个小问题

不等式(A)第一项的分母为什么一定有意义?

假设它无意义。如果有\(g(x)=g(y)\),那么有\({x}<t<y\)使得\(g’(t)=0\),此时不满足 \[ f’(t)/g’(t)<A+\varepsilon \] > 不等式(B)中为什么变成小于等于?

每次改变\(x\)\(t\)也发生改变,记为\(t(x)\),此时可能有\(\lim\limits_{x\to{a}}\frac{f’(t(x))}{g’(t(x))}=r\)

优美的Fourier级数(二): 有界差分下的收敛(Jordan判别法)

前言

如果你和Fourier级数打交道,那么在处理间断函数,特别是锯齿状函数的时候,有没有注意过间断处的形状?它为什么会处在中间位置?什么时候会出现这种情况?这就是接下来要解决的问题. 这篇文章中, 会涉及到各种与三角函数、定积分、导函数有关的基本重要技巧. 还是那句话,Fourier级数绝对不仅仅是处理一系列三角函数. 还要注意,这里我们探讨的函数应该是定义在\([-\pi,\pi]\)的实函数. 这篇文章中实际要做的事情是, 利用定积分的各种性质, 进行无穷小量的分析.

Jordan判别法

如果\(f\)是有界差分,那么 \[ s_N(x)\to\frac{f(x^+)+f(x^-)}{2} \]

其中\(f(x^+)=\lim\limits_{h\to0^+}f(x+h)\), \(f(x^-)=\lim\limits_{h\to0^+}f(x-h)\)

理论准备1: 有界差分

有界差分可以看成推广的“弧长”. 在\([a,b]\)上,\(f(x)\)的总差分的定义是这样: \[ T_f(x):=\sup\{\sum_{i=1}^n|f(x_i)-f(x_{i-1})||a=x_0<x_1<\cdots<x_n=x\} \] 对于连续函数来说,这就是\(f(x)\)\([a,x]\)的弧长. 而如果\(f(x)\)\([a,b]\)上的有界差分,那么只需要满足\(T_f(b)<\infty\).

注意到, \(f(x)\)还可以写成

\[ f(x)=\frac{1}{2}[T_f(x)+f(x)]-\frac{1}{2}[T_f(x)-f(x)] \]

\(\frac{1}{2}[T_f(x)+f(x)]\)\(\frac{1}{2}[T_f(x)-f(x)]\)都是非负的单调增函数. 事实上,有界差分一定可以写成两个单调增函数的差,具体证明可以参见这里.

理论准备2: 积分第二中值定理

如果定义在\([a,b]\)上的实函数\(f\)\(g\)满足\(f\)连续且\(g\)单调,那么存在\(c\in(a,b)\)使得 \[ \int_a^bf(x)g(x)dx=g(a^+)\int_a^cf(x)dx+g(b^-)\int_c^bf(x)dx \]

这个定理的证明可以参见这里,也可以用Abel变换进行证明.

回到Jordan判别法的证明

因为\(D_N(x)\)是偶函数,\(S_N(x)\)可以重写成 \[ S_N(x)=\frac{1}{2\pi}\int_0^{\pi}(f(x-t)+f(x+t))D_N(t)dt \]

如果我们定义\(g(t)=f(x+t)+f(x-t)\), 那么就有 \[ g(0^+)=f(x^+)+f(x^-) \]

原命题即证明 \[ \frac{1}{2\pi}\int_0^{\pi}g(t)D_N(t)dt\to\frac{g(0^+)}{2} \]

又考虑到\(g(t)\)是有界差分,可以写成两个单调增函数的差. 那么这里只需要这个极限对单调增函数成立即可.

设有单调增函数\(h(t)\), 定义\(H(t)=h(t)-h(0^+)\); 注意到 \[ \frac{1}{2\pi}\int_0^{\pi}H(t)D_N(t)dt\to\frac{H(0^+)}{2}=0 \] 当且仅当 \[ \frac{1}{2\pi}\int_0^{\pi}h(t)D_N(t)dt\to\frac{h(0^+)}{2} \] 这是因为\(\frac{1}{2\pi}\int_0^{\pi}D_N(t)dt=\frac{1}{2}\). 那么不失一般性,可以设\(h(0^+)=0\), 那么需要证明, \[ \frac{1}{2\pi}\int_0^{\pi}h(t)D_N(t)dt\to 0\quad(N\to\infty) \]

因为\(h(0^+)=0\), 根据连续的定义, 对任意\(\varepsilon>0\), 有\(\delta>0\)使得对任意\(0<x<\delta\)\(0<h(x)<\varepsilon\). 原积分可以展开为 \[ \frac{1}{2\pi}\int_0^{\pi}h(t)D_N(t)dt=\frac{1}{2\pi}\int_0^{\delta}h(t)D_N(t)dt+\frac{1}{2\pi}\int_{\delta}^{\pi}h(t)D_N(t)dt \]

注意到最后一个积分可以写成 \[ \frac{1}{2\pi}\int_0^{\pi}\frac{h(t)}{\sin(t/2)}\chi_{[\delta,\pi]}\sin(N+\frac{1}{2})tdt \]

其中 \[ \chi_E=\begin{cases}1,x\in E \\ {0}, x\notin E\end{cases} \]

那么这个积分的讨论就和上一篇里收敛性证明的最后利用Bessel不等式的推论的过程一样了, 将\(\sin(N+\frac{1}{2})t\)展开之后, 我们得到,这个积分的极限为\(0\). 证明在此略去.

第一个积分我们用积分第二定理展开, 得到: \[\begin{equation} \begin{aligned} \frac{1}{2\pi}\int_0^{\delta}h(t)D_N(t)dt&=\frac{1}{2\pi}h(\delta^-)\int_c^{\delta}D_N(t)dt\\ &\leq\frac{\varepsilon}{2\pi}\int_c^{\delta}D_N(t)dt \end{aligned} \end{equation}\]

其中\(0<c<\delta\). 如果我们能证出\(\int_c^{\delta}D_N(t)dt\)是有界的,那么\(\varepsilon\to0\)时,就有所求结论. 注意到 \[ \left\vert\int_c^{\delta}D_N(t)dt\right\vert\leq \left\vert\int_c^{\delta}\sin(N+\frac{1}{2})t(\frac{1}{\sin(t/2)}-\frac{1}{t/2})dt\right\vert+\left\vert\int_c^{\delta}\frac{\sin(N+\frac{1}{2})t}{t/2}dt\right\vert \] 因为\(\lim\limits_{t\to0}\frac{1}{\sin(t/2)}-\frac{1}{t/2}=0\), 而且这个函数在\((0,\pi]\)上连续有定义,故\(\frac{1}{\sin(t/2)}-\frac{1}{t/2}\)\([0,\pi]\)上可积. 再利用Bessel不等式的推论,不等式右侧第一个积分趋近于0, 同时也是有界的.

针对另一个积分的讨论,我们首先令\(u=(N+\frac{1}{2})t\), 那么能得到 \[ \int_c^{\delta}\frac{\sin(N+\frac{1}{2})t}{t/2}dt=2\int_{(N+\frac{1}{2})c}^{(N+\frac{1}{2})\delta}\frac{\sin u}{u}du \]

这个积分的有界性可以通过探讨函数\(y=\int_0^{x}\frac{\sin x}{x}dx(x>0)\)得到. 通过很多办法可以发现,\(\lim\limits_{x\to\infty}y=\frac{\pi}{2}\). 具体可以参见这里. 接下来, 我们通过基本的导数和单调性的关系分析它的有界性. 我们要做的是, 证明\(y(\pi)\)\(y\)的最大值(考虑到\(\frac{\sin{x}}{x}\)\((0,\pi]\)处处有界, 必然有\(y(\pi)<\infty\)).

因为\(y’=\frac{\sin x}{x}\), \(y\)\([2k\pi,(2k+1)\pi]\)递增,在\([(2k-1)\pi,2k\pi]\)递减.

\(y\)\([0,\pi]\)递增,所以\(0<x<\pi\)时,\(y(x)<y(\pi)\).

又考虑到 \[ y((2k-1)\pi)-y((2k+1)\pi)=\int_{(2k-1)\pi}^{(2k+1)\pi}\frac{\sin x}{x}dx \]\[ \int_{(2k-1)\pi}^{(2k+1)\pi}\frac{\sin x}{x}dx>\int_{(2k-1)\pi}^{(2k+1)\pi}\frac{\sin x}{(2k+1)\pi}dx=0 \] 从而有 \[ y(\pi)>y(3\pi)>\cdots>y((2k+1)\pi) \] 而根据函数的单调性,一定有 \[ \begin{cases} y(2k\pi)<y((2k-1)\pi)\\ y(2k\pi)<y((2k+1)\pi) \end{cases} \] 因此\(y\)的最大值为\(y(\pi)\). 用类似的办法还可以发现\(y(0)\)为最小值. 这说明,\(y\)是有界的.

再回到原来的积分,有 \[ 2\left\vert\int_{(N+\frac{1}{2})c}^{(N+\frac{1}{2})\delta}\frac{\sin u}{u}du\right\vert=2\left\vert y((N+\frac{1}{2})\delta)-y((N+\frac{1}{2})c)\right\vert<2y(\pi) \]

至此,我们证明了\(\int_c^{\delta}D_N(t)dt\)是有界的. 进一步也得出了想要的收敛性的结论.

总结&其他想说的

至此,Jordan判别法得到了证明. 但千万不要认为,Fourier级数的收敛是这么简单的一件事情. 这可能会让人觉得,既然有界差分就有这么好的收敛现象,那么连续函数一定就收敛得更好. 但实际情况完全不一样:存在至少有一点发散的连续函数的Fourier级数(du Bois Reymond, 1873). 此外,甚至存在每点都发散的Fourier级数(Kolmogorov, 1926). 这和处处连续但处处不可导的函数一样,很难想象,但是理论上确实存在.

优美的Fourier级数(一): 绝对不只是求表达式的问题

前言

Fourier级数是相当优美的一类级数,但它涉及到的问题绝对不仅仅是通过各种运算技巧求表达式。 相反,它是一个很复杂、很困难的大话题。 我在这里会把一些基本内容和一系列严格的证明整理下来。 从Fourier级数出发,我们能看到很多重要的基本技巧的应用,也会遇见和实际应用息息相关的问题。 当然这些内容里不会包括如何求表达式,我觉得计算机做得比我好多了。

Fourier级数

在读这篇文章时, 你可能已经学到了一些求Fourier级数系数的技巧, 这可以看成一元微积分的角度的理解。 接下来, 我们希望从向量几何的角度看待Fourier级数。 当然, 这里不是要求画出几何图像, 而是要求理解运算规则。

级数的表达

最常见的Fourier级数是这种形式: \[ f(x)=a_0+\sum_{n=1}^{\infty}(a_n\cos nx+b_n\sin nx)\quad x\in\mathbb{R} \]

这里的\(a_n\)\(b_n\)既可以是实数又可以是复数(但我们接下来主要讨论实数函数\(f\))。 有的地方把第一项写成\(\frac{a_0}{2}\), 这是考虑到积分时会多出来的一个\(\frac{1}{2}\)。 两种写法单纯是关于如何统一表达,在后面会解释。 考虑到\(e^{ix}=\cos x+i\sin x\), 上面的式子可以写成 \[ f(x)= \sum_{-\infty}^{\infty}c_ne^{inx}\quad x\in\mathbb{R} \]

用这种表达方式时不用考虑\(c_n\)的细节。 注意到\(a_0\)可以写成\(a_0\cos 0x + b_0\sin 0x\)

关于级数的系数,即函数的“坐标”

单位正交系

我们先回忆线性代数里的知识。 一个行向量和一个列向量的乘积是这样的:

\[\begin{equation} \begin{bmatrix}a&b\end{bmatrix}\begin{bmatrix}c\\d\end{bmatrix}=ac+bd \end{equation}\] 进一步,第一个行向量可以看成列向量的转置。 那么这个\(ac+bd\)就是两个2维平面内列向量的内积。这就是高中数学中所讲的“向量乘法”。 这涉及到经典欧基里德空间的内积定义。 而谈到向量,单位正交向量肯定是非常有探讨价值的。因为一般情况下其他向量可以用单位正交向量比较简介地表示出来。 但是向量内积不仅仅存在于经典的欧氏空间。我们可以定义一系列定义域相同的函数,例如\([a,b]\)上的函数\(f\)\(g\)的内积可以定义成 \[ (f,g):=\int_a^b f(x)\overline{g}(x)dx \] 其中\(\overline{g}\)表示\(g\)的共轭复数。

在内积空间里, 两个向量的内积为\(0\), 说明两个向量正交(这和欧几里得空间是一致的)。 或者更形象地说, 夹角为\(\frac{\pi}{2}\)。 而向量的模的平方即自身和自身的内积。 我们可以定义函数的“单位正交系”

若定义在\([a,b]\)上的一系列函数\(\{\varphi_n(x)\}\)若满足\((\varphi_n,\varphi_n)=1\)\((\varphi_n,\varphi_m)=0(m\neq n)\), 则被称为单位正交系。

再看Fourier级数

可以验证,在\([-\pi,\pi]\)上,下列两组函数是满足单位正交的条件的: \[ \frac{e^{ix}}{\sqrt{2\pi}},\frac{e^{2ix}}{\sqrt{2\pi}},\frac{e^{3ix}}{\sqrt{2\pi}},\cdots \] \[ \frac{1}{\sqrt{2\pi}},\frac{\cos x}{\sqrt{\pi}},\frac{\sin x}{\sqrt{\pi}}, \frac{\cos 2x}{\sqrt{\pi}},\cdots \]

读到这里可以发现,\(a_0\)\(\frac{a_0}{2}\)的表示应该和\(\frac{1}{\sqrt{2\pi}}\)或者\(\frac{1}{\sqrt{\pi}}\)有关。

\(\mathbb{R}^n\)里,如果知道单位正交向量\(\mathbf{e_1},\cdots,\mathbf{e_n}\), 那么任意向量都可以唯一表示成\(x_1\mathbf{e_1}+\cdots+x_n\mathbf{e_n}\)。 向量\(\mathbf{\alpha}\)在的第\(k\)坐标分量为\((\mathbf{\alpha},\mathbf{e_k})\)。 通过这个角度看Fourier级数,就会发现,各项的系数就是函数的坐标: \[ c_m=\int_a^bf(x)\overline{\varphi_m}(x)dx \] 如果我们再看第二个复函数形式的表达式,就有 \[ c_m=\frac{1}{2\pi}\int_{-\pi}^{\pi} f(x)e^{-imx}dx \] 为了得到这个形式(\(c_m\)不受影响), 我们先用\(\frac{e^{imx}}{\sqrt{2\pi}}\)表示\(f\), 应该有 \[ \frac{f(x)}{\sqrt{2\pi}}=\sum_{-\infty}^{\infty}c_n\frac{e^{inx}}{\sqrt{2\pi}} \]

这里到底发生了什么? 我们把傅里叶级数的问题放到了一个以函数为元素的空间中, 然后选择了一组空间的, 然后求出的系数就是这组基下的坐标。 于是, 我们找到了傅里叶级数的几何意义(抽象上的), 这使我们能像高中平面几何、空间几何一样利用向量的性质解决一些问题, 尽管傅里叶级数涉及到的空间的维度是无穷大。

内积运算的规则

下列内积运算的规则会在接下来用到。 涉及到复数, 因此和经典欧基里德空间有不同之处(但是考虑到实数的共轭复数是本身, 最后一个性质其实是一样的)。 但是可以一个一个进行验证。

  • \((a+c,b)=(a,b)+(c,b)\)

  • \((a,b+c)=(a,b)+(a,c)\)

  • \((ka,b)=k(a,b)\)

  • \((a,kb)=k(a,b)\)

  • \((a,b)=\overline{(b,a)}\)

Dirichlet核

定义式

Dirichlet核的定义是这样的: \[ D_N(x)=\sum_{-N}^N e^{inx} = \frac{\sin(N+\frac{1}{2})x}{\sin\frac{x}{2}} \]

第二个等号既可以直接合并\(e^{inx}\)\(e^{-inx}\)得到\(\cos nx\)的式子从而进行积化和差,又可以利用等比数列的性质得到。

搭建起Dirichlet核和原函数的桥梁

针对文章开头提到的第二种定义,可以定义函数数列 \[ s_N(x)=\sum_{-N}^N c_ne^{inx} \]\(c_n\)展开,有 \[\begin{equation} \begin{aligned} s_N(x)&=\sum_{-N}^N\left(\frac{1}{2\pi}\int_{-\pi}^{\pi}f(t)e^{-int}dt\right)e^{inx}\\ &=\int_{-\pi}^{\pi} \frac{1}{2\pi}f(t)\sum_{-N}^Ne^{in(x-t)}dt\\ &=\frac{1}{2\pi}\int_{-\pi}^{\pi} f(t)D_N(x-t)dt\\ &=\frac{1}{2\pi}\int_{-\pi}^{\pi} f(x-t)D_N(t)dt \end{aligned} \end{equation}\] 最后一个等号通过函数的周期性和简单的换元运算得到。 至此,Dirichlet核和原函数的桥梁就被搭建起来了。 接下来,需要证明,以这个函数核构建的函数收敛于\(f\)

Bessel不等式以及其重要推论

\(f(x)\)在正交函数系\({\varphi_n(x)}\)下的系数为\({c_n}\), 则有\(\sum_{n=1}^{\infty}|c_n|^2\leq(f,f)\)

\(s_n(x)=\sum_{m=1}^n c_m\varphi_m(x)\), 其中\(c_m=\int_a^b f(x)\overline{\varphi_m}(x)dx\)。 下面通过讨论\(s_n(x)\)\(f(x)\)的误差得到这个不等式和一个重要的推论。

注意到\((f,s_n)=\int_a^b f(x)\sum\overline{c_m}\overline{\varphi_m(x)}dx=\sum\overline{c_m}\int_a^b f(x)\overline{\varphi_m(x)}dx=\sum|c_m^2|=\overline{(f,s_n)}=(s_n,f)\), 以及\((s_n,s_n)=\sum|c_m^2|\)\[\begin{equation} \begin{aligned} (f-s_n,f-s_n)&=(f,f-s_n)-(s_n,f-s_n)\\\ &=(f,f)-(f,s_n)-(s_n,f)+(s_n,s_n)\\\ &=(f,f)-(s_n,s_n)\\\ &\geq 0 \end{aligned} \end{equation}\] 也就是说, \[ (s_n,s_n)=\sum_1^n|c_m|^2\leq(f,f) \] \(n\to\infty\)时,就是所谓的Bessel不等式。 也可以发现,函数的Fourier系数\(c_m\)满足\(\lim\limits_{n\to\infty}c_m=0\)。 这个推论会在下面Dirichlet核收敛的证明中用到。

收敛证明

(Dini's Test)若对一些\(x\)有常数\(\delta>0\)\(M<\infty\)使得 \[ |f(x+t)-f(x)|\leq M|t| \] 对所有\(t\in(-\delta,\delta)\)成立,那么有 \[ \lim\limits_{n\to\infty}s_N(x)=f(x) \]

要注意的是,我们在这里只讨论逐点收敛。 其他形式的收敛会在接下来的文章中讨论

定义函数 \[ g(t)= \begin{cases} \frac{f(x-t)-f(t)}{\sin(t/2)},0<|t|<\pi\\ 0,t=0 \end{cases} \] 考虑到 \[ \frac{1}{2\pi}\int_{-\pi}^{\pi}D_N(x)dx=1 \] 因此有 \[ \frac{1}{2\pi}\int_{-\pi}^{\pi}D_N(t)f(x)dt=f(x) \] 所求函数和原函数做差,就有 \[\begin{equation} \begin{aligned} s_N(x)-f(x)&=\frac{1}{2\pi}\int_{-\pi}^{\pi}g(t)\sin\left(N+\frac{1}{2}\right)tdt\\ &=\frac{1}{2\pi}\int_{-\pi}^{\pi}\left[g(t)\cos\frac{t}{2}\right]\sin Ntdt+\frac{1}{2\pi}\int_{-\pi}^{\pi}\left[g(t)\sin\frac{t}{2}\right]\cos Ntdt \end{aligned} \end{equation}\] 根据\(f(x)\)的条件和\(g(x)\)的定义,\(g(x)\cos(t/2)\)\(g(x)\sin(t/2)\)是有界的。 利用Bessel不等式的推论可以发现,这两个积分趋近于\(0\)。 这就证明了结论。

总结&我接下来想写的

写到这里,已经涉及到了很多数学中的基本技巧:三角函数、向量内积、复变函数、等比数列、函数项数列收敛等等。 Fourier级数可以说是相当“优美”的一类级数。 在一些领域中,展开式中每一项均具有物理意义这是其他级数难以企及的。 我们又可以看到,Fourier级数还可以跳出三角函数的限制, 放在普遍的无穷维空间的规范正交基。 此外,它的收敛定理相比幂级数而言也是很宽松的。

接下来还有很多内容,我暂时的打算是这样的(已基本放弃;以后可能会有比较专门的调和分析内容):

  • Jordan’s criterion(关于\(s_N(x)\)收敛什么时候收敛到什么值),涉及到“有界差分”的概念

  • Parseval等式和应用(Fourier分析理论的核心内容之一),如三角函数系的完备性

  • Fejer核、Poisson核(一致收敛问题)

压缩定理和其应用

什么是压缩

压缩(contraction)的准确描述是这样的:

取完备度量空间\(X\), 度量\(d\), 函数\(\varphi\)\(X\)到本身的映射, 且满足

\[ d(\varphi(x),\varphi(y)) \leq cd(x,y). \] 其中\(x,y\in{X}\), \(c<1\). 那么\(\varphi\)就是一个从\(X\)到本身的压缩.

一个最简单的例子是, \(y=\frac{x}{2}\). 这是一个“平缓”的函数. 平缓的程度是怎样呢? 斜率小于1.

而压缩定理指出, 对于这个函数, 有且仅有一个\(x\)使得\(\varphi(x)=x\). 例如上面的例子, 只有\(0=0\)这一个点. 接下来要给出证明.

压缩的证明

任取\(x_0\in{X}\), 按照如下方法定义数列\(x_n\):

\[ x_{n+1}=\varphi(x_n) \]

从而会有

\[d(x_2,x_1)=d(\varphi(x_1),\varphi(x_0))\leq cd(x_1,x_0)\] (如果你不理解这里的\(d(x,y)\), 可以简单地看成\(|x-y|\)) 推广下去, 就有

\[d(x_{n+1},x_n)\leq c^nd(x_1,x_0)\]

对于\(n<m\), 就有 \[\begin{equation} \begin{aligned} d(x_n,x_m)\leq\sum_{i=n+1}^m d(x_i,x_{i+1})\leq(c^n+c^{n+1}+\cdots+c^{m-1})d(x_1,x_0)\leq\frac{c^n}{1-c}d(x_1,x_0) \end{aligned} \end{equation}\] 这说明, \(x_n\)是一个Cauchy数列, 又考虑到\(X\)是完备空间, 因此\(x_n\)收敛. 设\(x_n\)的极限为\(x\). 由压缩的定义可知, \(\varphi\)为一致连续的函数, 从而有 \[ \varphi(x)=\lim\limits_{n\to\infty}\varphi(x_n)=\lim\limits_{n\to\infty}x_{n+1}=x \] 至于唯一性的证明, 可设\(\varphi(x)=x\), \(\varphi(y)=y\). 从而有\(d(\varphi(x),\varphi(y))=d(x,y)\leq cd(x,y)\) 这只有在\(d(x,y)=0\)时成立. 唯一性得到证明.

简单应用

下面是一道数学专业研究生入学考试题. 在这个题中可以发现, 在指定的条件下, 利用“压缩”这个工具, 问题的解决变得非常简单.

已知\(0\leq a\leq 1, b \geq2\), 有数列\({x_n}\) 满足\(x_0=0\), 且有递推关系\[x_{n+1}=x_n-\frac{1}{b}(x_n^2-a),\]求证此数列收敛, 并求出极限.

在这里设\(\phi(x)=x-\frac{1}{b}(x^2-a)\), 那么有\(x_{n+1}=\varphi(x_n)\). 如果能证出\(\varphi\)为一个压缩, 极限的问题就迎刃而解了.

证明

\(\varphi(x)=x-\frac{1}{b}(x^2-a)\). 则\(x_{n+1}=\varphi(x_n)\). 在这里\(x_1=\varphi(x_0)=\frac{a}{b}\). 现证明对所有\(n>0\)\(\frac{a}{b}\leq x_n\leq 1\), 对\(n\)进行归纳.

\(n=1\)时, 不等式已成立.

假设\(n=k\)时成立, 则\(n=k+1\)时, 有 \[ x_{k+1}=\frac{a}{b}-\frac{bx_k-x_k^2}{b} \] 考虑到\(y=bx-x^2\)\([\frac{a}{b},\frac{b}{2}]\)单调递减, 而\(\frac{b}{2}\geq1\), 故有 \[ x_{n+1}\leq\frac{a}{b} +\frac{b-1}{b}\leq 1 \]\(y(\frac{a}{b})\geq y(0)=0\), 故\(x_{n+1}\geq\frac{a}{b}\).

因此不等式对所有\(n>0\)成立.

利用这个不等式, 得到 \[ |f(x)-f(y)|=|x-y||1-\frac{x+y}{b}|\leq|x-y||1-\frac{2a}{b^2}|, \quad \frac{a}{b}\leq x,y \leq 1 \]

\(a=0\)时, 得到\(x_1=x_2=\cdots=0\), 故极限存在且为\(0\).

\(a\neq 0\)时, 令\(c=|1-\frac{2a}{b^2}|\), 则始终有\(c<1\). 此时就是上文中所提到的压缩. 收敛的证明略去.

\(\lim\limits_{n\to\infty}x_n=x\), 则\(x=\varphi(x)\). 解得\(x=\sqrt{a}\). 这在\(a=0\)时也成立.

综上, \(\lim\limits_{n\to\infty}x_n\)存在, 且值为\(\sqrt{a}\).

总结

压缩映射在处理迭代生成的数列时很有效, 而且可以推广到多维甚至无穷维中. 但是要注意, 这个映射实质上是在处理局部性质, 大范围的非线性的问题则不能处理. 处理迭代数列是它在离散形式下的基本应用, 但压缩在连续形式下也有很多重要的应用, 例如在\(\mathbb{R}^n\)中证明隐函数定理

关于度量

度量函数\(d(x,y)\)即表示两点之间的距离, 满足以下三个条件:

  • \(d(x,y)\geq 0\), 等号成立当且仅当\(x=y\).

  • \(d(x,y)=d(y,x)\).

  • \(d(x,y) + d(y,z) \leq d(x,z)\) (三角形不等式)

而度量空间即一个有度量函数的集合. 度量空间的完备性指, 这个空间的任意Cauchy列都收敛. 一个简单的例子是, 全体实数\(\mathbb{R}\), 度量函数\(d(x,y)=|x-y|\).

\(\mathbb{Q}\)在这个相同的度量下是发散的. 例如Cauchy数列\(\{\left(1+\frac{1}{n}\right)^n\}\)这个数列收敛到\(e\), 而\(e\notin{\mathbb{Q}}\).