Jensen不等式的证明

November 22, 2019
实分析/Real Analysis

Jensen不等式的表述

设$\mu$为一个集合$\Omega$上的 $\sigma$-代数$\mathfrak{M}$的测度, 其中$\mu(\Omega)=1$. 又设$f\in L^1(\mu)$. 如果对任意$x\in\Omega$有$f(x)\in(a,b)$, 且$\varphi$在$(a,b)$上为凸函数, 那么

[\varphi\left(\int_{\Omega}fd\mu\right)\leq\int_{\Omega}(\varphi\circ f)d\mu]

如果$\mu$为概率测度, 那么就已经证明了概率论版本的不等式; 如果$\mu$为勒贝格测度$m$, 那么经过一定调整之后也能自然得到Riemann函数版本的不等式. 同样, 离散版本的不等式也显得很自然了. 不一定要把积分版的看成离散版的极限, 也可以把离散版看成一个平凡的可测函数(这样自然是没问题的). 这样可以规避掉很多零散的细节.

实际上, 概率论中最基本的概念, 随机变量, 本身就一定是一个可测函数. 随机变量的离散和连续都是自然的. 当然了, 严格的定义也可以是有的:

一个可测函数$f$是*离散*的当且仅当有一个可数集合$B$使得$\mu(\{x:f(x)\notin B\})=0$.

但是, 这里的$\varphi$一定是连续函数, 这不是人为要求的, 而是可以证明的(注意是在开区间上, 在闭区间上不一定, 可以举出反例).

如果知道了数学期望实际上就是计算勒贝格积分, 那么这个不等式的概率论版本就显而易见了: [ E(\varphi(X))\geq\varphi(E(X)) ] 其中$\varphi$为凸函数.

这个不等式的其他派生形式也就更自然了, 在这里就不赘述了. 这些不等式主要利用了$e^x$的凸性.

凸函数的一个重要性质

满足$-\infty\leq a<\varphi<b\leq\infty$的实函数$\varphi$如果满足$\varphi((1-\lambda)x+\lambda y)\leq(1-\lambda)\varphi(x)+\lambda\varphi(y)$时, 被称为凸函数, 其中$a<x,y<b$, $0\leq\lambda\leq 1$.

接下来, 通过进行变量重新命名, 可以发现一个很独特的不等式. 在接下来这个不等式中还要注意到, 所谓二阶导函数大于$0$或者小于$0$其实是很不严格的判别办法, 因为可导实在是太严苛了. 更不用说二阶了.

令$(1-\lambda)x+\lambda y=t$, $x=s$, $y=u$, 那么可以发现

[     \varphi(t)\leq (1-\lambda)\varphi(s)+\lambda(u) \\
    t-s = \lambda(u-s) \\
    u-t = (1-\lambda)(u-s) ]

那么就有

[     \frac{\varphi(t)-\varphi(s)}{t-s}=\frac{\varphi(t)-\varphi(s)}{\lambda(u-s)} \\
    \frac{\varphi(u)-\varphi(t)}{u-t}=\frac{\varphi(u)-\varphi(t)}{(1-\lambda)(u-s)} ]

进行简单的变形, 就能得到

[     \frac{\varphi(t)-\varphi(s)}{t-s}\leq\frac{\varphi(u)-\varphi(t)}{u-t} ]

这其中, $a<s<t<u<b$ (可以想一下为什么要满足$s<t<u$). 如果$\varphi$可导, 那么有$\xi\in(s,t)$, $\zeta\in(t,u)$使得$\varphi’(\xi)\leq\varphi’(\zeta)$. 所以二阶导数大于等于$0$? 这个时候这个说法是很不合适的. 因为不知道$\varphi$是否二阶可导. 所以直接说凸函数二阶导数大于等于$0$就更不合适了, 因为这个函数可导与否都是个问题.

Jensen不等式的证明

首先, 令$t=\int_{\Omega}fd\mu$. 根据Lebesgue积分(其实这时考虑Riemann积分也没有问题)的性质, 就能够得到$a<t<b$(注意$\Omega$的测度为$1$).

对$a<s<t$, 定义$A=\sup{\frac{\varphi(s)-\varphi(t)}{s-t}}$, 那么上一节得到的不等式就可以插上一个$A$, 得到了

[     \frac{\varphi(s)-\varphi(t)}{s-t}\leq{A}\leq\frac{\varphi(u)-\varphi(t)}{u-t} ]

其中$t<u<b$. 第一个不等号是根据上界的定义直接得到的. 如果你对第二个不等号感到疑惑, 可以假设这个不等式不成立, 会得到一个显然的矛盾.

接下来, 给这个不等式两边分别乘以$s-t$和$u-t$, 能得到

[     \varphi(s)\geq\varphi(t)+A(s-t) ]

以及

[     \varphi(u)\geq\varphi(t)+A(s-t) ]

这也就是说, 对于所有的$a<s<b$, 都有$\varphi(s)\geq\varphi(t)+A(s-t)$成立.

令$s=f(x)$, 就能得到

[     \varphi(f(x))\geq\varphi(t)+A(f(x)-t) ]

这时, 对两侧以测度$\mu$积分, 就能得到(不要忘了$\mu(\Omega)=1$)

[     \int_{\Omega}(\varphi\circ f)d\mu\geq\varphi(t)+A(\int_{\Omega}f(x)d\mu-t) ]

这时不要忘了$t=\int_{\Omega}fd\mu$. 将这个代入上式, 就能得到

[     \int_{\Omega}(\varphi\circ f)d\mu\geq\varphi\left(\int_{\Omega}fd\mu\right) ]

证明完毕.


如果您或您的朋友在Pocket等网站阅读本文, 建议使用“阅读原文”功能, 否则可能无法看到由Mathjax生成的数学公式

Riesz表示定理证明(一)

November 16, 2019
实分析/Real Analysis 泛函分析/Functional Analysis

Riesz表示定理简单介绍

November 9, 2019
实分析/Real Analysis 泛函分析/Functional Analysis

Solutions to Real and Complex Analysis by Rudin

August 6, 2019
实分析/Real Analysis
comments powered by Disqus