B 数学基础

时间序列分析用到了数学分析、复分析、实变函数、泛函分析、测度论、概率论、随机过程、数理统计、多元统计分析中的一些结果。 这里对一些数学知识进行整理。

B.1 数学分析

B.1.1 极限

定理B.1 (分部求和公式) \(\{ x_k, k=m, m+1, \dots, n \}\), \(\{ y_k, k=m, m+1, \dots, n+1 \}\)是数列,则 \[\begin{aligned} \sum_{k=m}^n x_k (y_{k+1} - y_k) =& [x_n y_{n+1} - x_m y_m] - \sum_{k=m+1}^n y_k (x_k - x_{k-1}) \\ =& [x_n y_{n+1} - x_m y_m] - \sum_{k=m}^{n-1} y_{k+1} (x_{k+1} - x_{k}) \end{aligned}\]

证明\[\begin{aligned} \text{左边} =& \sum_{k=m}^n x_k y_{k+1} - \sum_{k=m}^n x_k y_k \\ \text{右边} =& x_n y_{n+1} - x_m y_m - \sum_{k=m+1}^n x_k y_k + \sum_{k=m+1}^n x_{k-1} y_k \\ =& x_n y_{n+1} + \sum_{s=m}^{n-1} x_s y_{s+1} - \sum_{k=m}^n x_k y_k \\ = & \sum_{s=m}^{n} x_s y_{s+1} - \sum_{k=m}^n x_k y_k \\ =& \text{左边} \end{aligned}\]

○○○○○○

定理B.2 (Kronecker引理) \(\{ x_n, n \in \mathbb N_+ \}\)是复数列, \(\sum_{n=1}^\infty x_n\)收敛到复数\(s\)。 实数列\(\{ b_n \}\)满足 \(0 < b_1 \leq b_2 \leq \dots\)\(\lim_{n\to\infty} b_n = \infty\), 则 \[ \lim_{n\to\infty} \frac{1}{b_n} \sum_{k=1}^n b_k x_k = 0 . \]

证明: 记\(S_n = \sum_{j=1}^n x_j\), \(S_0 = 0\), \(y_{n+1} = S_n\)。 由分部求和公式有 \[\begin{aligned} & \sum_{k=1}^n b_k x_k = \sum_{k=1}^n b_k (S_k - S_{k-1}) = \sum_{k=1}^n b_k (y_{k+1} - y_{k}) \\ =& b_n y_{n+1} - b_1 y_1 - \sum_{k=1}^{n-1} y_{k+1} (b_{k+1} - b_{k}) \\ =& b_n S_n - \sum_{k=1}^{n-1} S_{k} (b_{k+1} - b_{k}) \end{aligned}\] 于是 \[\begin{aligned} \frac{1}{b_n} \sum_{k=1}^n b_k x_k = S_n - \frac{1}{b_n} \sum_{k=1}^{n-1} (b_{k+1} - b_k) S_k \end{aligned}\] 由于\(S_n \to s\), \(\forall \varepsilon>0\), 存在\(N\)使得\(n \geq N\)\(| S_n - s | < \varepsilon/2\)。 将上式右边变成 \[\begin{aligned} & S_n - \frac{1}{b_n} \sum_{k=1}^{N-1} (b_{k+1} - b_k) S_k - \frac{1}{b_n} \sum_{k=N}^{n-1} (b_{k+1} - b_k) S_k \\ =& S_n - \frac{1}{b_n} \sum_{k=1}^{N-1} (b_{k+1} - b_k) S_k - \frac{1}{b_n} \sum_{k=N}^{n-1} (b_{k+1} - b_k) s - \frac{1}{b_n} \sum_{k=N}^{n-1} (b_{k+1} - b_k) (S_k - s) \\ =& S_n - \frac{1}{b_n} \sum_{k=1}^{N-1} (b_{k+1} - b_k) S_k - \frac{b_n - b_N}{b_n} s - \frac{1}{b_n} \sum_{k=N}^{n-1} (b_{k+1} - b_k) (S_k - s) \\ \end{aligned}\]\(n\to\infty\)时, 第一项和第三项分别趋于\(s\)\(-s\),可以消去; 第二项趋于0, 第四项的绝对值小于等于 \(\frac12\varepsilon \frac{b_n - b_N}{b_n} \leq \frac12\varepsilon\), 所以存在\(N_2>N\)使得\(n > N_2\)时四项之和绝对值小于\(\varepsilon\)。 Knonecker引理证毕。

○○○○○○

定理B.3 (Stolz定理) 设实数列\(\{ a_n \}\)\(\{ b_n \}\)满足

(1) \(\{b_n \}\)严格单调递增;

(2) \(\lim_{n\to\infty} b_n = +\infty\);

(3) \(\lim_{n\to\infty} \frac{a_{n+1} - a_{n}}{b_{n+1} - b_n} = L\) 有意义,\(L\)为有限实数、\(+\infty\)\(-\infty\)

则有

\[ \lim_{n\to\infty} \frac{a_n}{b_n} = \lim_{n\to\infty} \frac{a_{n+1} - a_{n}}{b_{n+1} - b_n} = L \]

这是与微积分中洛必达法则类似的数列极限定理。

证明: 当\(L\)为有限实数时, 由条件(3)和条件(1)可知, \(\forall \epsilon>0\), \(\exists N_1 > 0\), 当\(n > N_1\)\[ \left| \frac{a_{n+1} - a_{n}}{b_{n+1} - b_n} - L \right| < \epsilon \] 从而 \[ L - \epsilon < \frac{a_{n+1} - a_{n}}{b_{n+1} - b_n} < L + \epsilon \] \[ (L - \epsilon)(b_{n+1} - b_n) < a_{n+1} - a_{n} < (L + \epsilon)(b_{n+1} - b_n) \quad (*) \]

由条件(2), \(\exists N_2>N_1\), 当\(n > N_2\)\(b_n > \epsilon > 0\)

\(n>N_2\)时, 从\(N_2+1\)\(n\)对(*)式累加, 有 \[ (L-\epsilon)(b_{n+1} - b_{N_2+1}) < a_{n+1} - a_{N_2+1} < (L+\epsilon)(b_{n+1} - b_{N_2+1}) \] 于是 \[ L-\epsilon < \frac{a_{n+1} - a_{N_2+1}}{b_{n+1} - b_{N_2+1}} < L+\epsilon \]\(b_{n+1} > \epsilon > 0\),得 \[ L-\epsilon < \frac{\frac{a_{n+1}}{b_{n+1}} - \frac{a_{N_2+1}}{b_{n+1}}}{1 - \frac{b_{N_2+1}}{b_{n+1}}} < L+\epsilon \]\(n\to\infty\), 因为 \[ \lim_{n\to\infty} \frac{a_{N_2+1}}{b_{n+1}} = 0, \quad \lim_{n\to\infty} \frac{b_{N_2+1}}{b_{n+1}} = 0 \] 所以存在\(N_3 > N_2\)\(n > N_3\)\[ |L+\epsilon| \cdot \left| \frac{b_{N_2+1}}{b_{n+1}} \right| < \epsilon, \quad |L-\epsilon| \cdot \left| \frac{b_{N_2+1}}{b_{n+1}} \right| < \epsilon, \quad \left| \frac{a_{N_2+1}}{b_{n+1}} \right| < \epsilon \] 于是 \[ L - 2\epsilon < \frac{a_{n+1}}{b_{n+1}} - \frac{a_{N_2+1}}{b_{n+1}} < L + 2\epsilon \] \[ L - 3\epsilon < \frac{a_{n+1}}{b_{n+1}} < L + 3\epsilon \]\[ \left| \frac{a_{n+1}}{b_{n+1}} - L \right| < 3\epsilon \]\[ \lim_{n\to\infty} \frac{a_n}{b_n} = L . \]

\(L\)为无穷时的证明略。

○○○○○○

推论B.1 如果数列\(a_n \to 0\)(\(n\to\infty\)), 则 \[ \lim_{n\to\infty} \frac{1}{n} \sum_{i=1}^n a_i = 0 \]

证明: 由Stolz定理,记\(S_n = \sum_{i=1}^n a_i\),则 \[\begin{aligned} \lim_{n\to\infty} \frac{1}{n} \sum_{i=1}^n a_i =& \lim_{n\to\infty} \frac{S_n}{n} \\ =& \lim_{n\to\infty} \frac{S_n - S_{n-1}}{n - (n-1)} \\ =& \lim_{n\to\infty} a_n = 0 \end{aligned}\]

○○○○○○

B.1.2 微积分

定理B.4 (微积分基本定理) (1) 若\(f(x)\)是定义在\([a,b]\)上的Riemann可积函数且在\(x=x_0\)处连续, 则函数 \[\begin{aligned} F(x) = \int_a^{x} f(t)dt, \quad x \in [a,b] \end{aligned}\]\(x=x_0\)处可微且\(F'(x_0)=f(x_0)\)

(2) 若\(f(x)\)是定义在\([a,b]\)上的可微函数, \(f'(x)\)\([a,b]\)上是Riemann可积函数, 则\(f(x)\)是其导函数的不定积分: \[\begin{aligned} \int_a^x f'(t) dt = f(x) - f(a), \quad x \in [a,b] \end{aligned}\]

对Lebesgue积分也有类似结论。

定理B.5 (Lebesgue定理) \(f(x)\)是定义在\([a,b]\)上的单调上升实值函数, 则\(f(x)\)的不可微点集为零测集且有 \[\begin{aligned} \int_a^b f'(x) dx \leq f(b) - f(a) \end{aligned}\]

勒贝格积分与黎曼积分关系

黎曼积分是按照\(x\)的区间进行分割, 当细分小区间长度趋于零时的极限(如果存在)。 勒贝格积分是按照函数值\(y\)的区间进行分割, 用简单函数的积分逼近一般函数的积分。

定理B.6 对闭区间\([a,b]\)上的有界函数\(f\), 如果黎曼可积, 则\(f\)必为Borel可测函数且勒贝格可积, 积分值相等。

定理B.7 对闭区间\([a,b]\)上的有界函数\(f\)\(f\)黎曼可积的充分必要条件是\(f\)\([a,b]\)中的不连续点组成的集合为勒贝格零测集。

推论\([a,b]\)上仅有有限个不连续点的函数是黎曼可积的, 也是勒贝格可积的, 两种积分相等。

定义B.1 (有界变差函数) \(f(x)\)是定义在\([a,b]\)上的实值函数, 作分划\(\Delta_t\): \(a=x_0 < x_1 < \dots < x_n = b\) 以及相应的和 \[\begin{aligned} \nu_\Delta = \sum_{i=1}^n | f(x_i) - f(x_{i-1}) | \end{aligned}\]\[\begin{aligned} \bigvee_a^b(f) = \sup \{ \nu_\Delta: \Delta \text{为$[a,b]$的任一分划} \} \end{aligned}\] 并称它为\(f\)\([a,b]\)上的全变差。若 \[\begin{aligned} \bigvee_a^b(f) < +\infty \end{aligned}\] 则称\(f(x)\)\([a,b]\)上的有界变差函数, 其全体记为\(BV([a,b])\)

有界变差函数有界, \(BV([a,b])\)构成一个线性空间。

B.1.3 数值级数

\(\{ a_n, n = 1,2,\dots \}\)为实数列, 考虑\(\sum_{n=1}^{\infty} a_n\)。 称 \[ S_n = \sum_{i=1}^n a_i \] 为部分和序列。 如果\(S_n\)有实数值极限\(S\), 则称级数\(\sum_{n=1}^{\infty} a_n\)收敛到\(S\); 如果\(S_n\)极限为\(+\infty\)\(-\infty\), 则称级数\(\sum_{n=1}^{\infty} a_n\)发散到\(+\infty\)\(-\infty\); 如果\(S_n\)极限不存在, 则称级数\(\sum_{n=1}^{\infty} a_n\)发散。

如果\(\sum_{n=1}^{\infty} |a_n|\)收敛到有限值, 则称级数\(\sum_{n=1}^{\infty} a_n\)绝对收敛, 绝对收敛推出收敛。

如果级数\(\sum_{n=1}^{\infty} a_n\)收敛, 则\(\lim_{n \to \infty} a_n = 0\)

对正项级数\(\sum_{n=1}^{\infty} a_n\)\(\sum_{n=1}^{\infty} b_n\), 如果\(\lim_{n\to\infty} \frac{a_n}{b_n}\)为有限的非零实数值, 即\(a_n\)\(b_n\)同阶, 则两个级数同时收敛或者同时发散。

达朗倍尔判别法: 设\(\sum_{n=1}^{\infty} a_n\)是正项级数, 若 \[ \varlimsup_{n\to\infty} \frac{a_{n+1}}{a_n} = r < 1, \]\(\sum_{n=1}^{\infty} a_n\)收敛; 若 \[ \varliminf_{n\to\infty} \frac{a_{n+1}}{a_n} = r > 1, \]\(\sum_{n=1}^{\infty} a_n\)发散; \(r=1\)时不能判断。

哥西判别法: 设\(\sum_{n=1}^{\infty} a_n\)是正项级数, 若 \[ \varlimsup_{n\to\infty} a_n^{1/n} = \rho, \] 则当\(\rho<1\)时级数收敛, 当\(\rho>1\)时级数发散。

如果级数\(\sum_{n=1}^{\infty} a_n\)绝对收敛, 则任意改变求和次序, 级数仍绝对收敛, 且收敛到相同值; 否则, 改变求和次序可能发散或收敛到不同的结果。

二重级数: 对数列\(\{a_{ij}, i=1,2,\dots, j=1,2,\dots\}\), 令\(S_i = \sum_{j=1}^\infty a_{ij}\), 若每个\(S_i\)收敛, 且\(\sum_{i=1}^\infty S_i\)收敛, 则级数\(\sum_{i=1}^\infty \sum_{j=1}^\infty a_{ij}\)收敛到\(\sum_{i=1}^\infty S_i\)

如果其中\(\sum_{i=1}^\infty \sum_{j=1}^\infty |a_{ij}| < \infty\), 则可交换次序 \[ \sum_{i=1}^\infty \sum_{j=1}^\infty a_{ij} = \sum_{j=1}^\infty \sum_{i=1}^\infty a_{ij} . \]

级数乘法: 设级数\(\sum_{n=1}^{\infty} a_n\)\(\sum_{n=1}^{\infty} b_n\)至少有一个绝对收敛, 则 \[ \left( \sum_{n=1}^{\infty} a_n \right) \left( \sum_{n=1}^{\infty} b_n \right) = \sum_{n=1}^{\infty} c_n , \] 其中 \[ c_n = \sum_{i=1}^{n} a_i b_{n+1-i} . \]

常用求和公式:

\[\begin{aligned} 1+2+3+\dots+n =& \sum_{k=1}^n k = \frac{1}{2} n (n+1) . \\ 1^2 + 2^2 + 3^2 + \dots + n^2 =& \sum_{k=1}^n k^2 = \frac{1}{6} n(n+1)(2n+1) .\\ 1^3 + 2^3 + 3^3 + \dots + n^3 =& \sum_{k=1}^n k^3 = \left( \frac{1}{2} n (n+1) \right)^2 .\\ 1^4 + 2^4 + 3^4 + \dots + n^4 =& \sum_{k=1}^n k^4 = \frac{1}{30} n(n+1)(2n+1)(3n^2+3n-1) . \end{aligned}\]

B.1.4 函数项级数

\(f_n(x)\)是定义在区间\(I\)上的函数, \(n=1,2,\dots\),称\(\{ f_n(x), n=1,2,\dots \}\)为函数序列。 如果在\(I\)的一个非空子集\(I_1\)\[ \lim_{n\to\infty} f_n(x) = f(x), \ \forall x \in I_1, \] 则称\(f(x)\)\(I_1\)上是函数序列的极限函数。

考虑函数级数\(\sum_{n=1}^\infty u_n(x)\)\(u_n(x)\)是区间\(I\)上的函数, 如果其部分和序列 \[ S_n(x) = \sum_{i=1}^n u_i(x) \]\(I_1 \subset I\)中收敛到极限函数\(S(x)\), 则称级数\(\sum_{n=1}^\infty u_n(x)\)\(I_1\)中收敛到\(S(x)\)

使得级数\(\sum_{n=1}^\infty u_n(x)\)收敛的点\(x\)称为收敛点, 否则称为发散点。 所有收敛点组成的集合称为收敛区域, 所有发散点组成的集合称为发散区域。

如果\(\sum_{n=1}^\infty |u_n(x)|\)\(I_1\)中收敛, 则称\(\sum_{n=1}^\infty u_n(x)\)\(I_1\)中绝对收敛, 绝对收敛推出收敛。

级数\(\sum_{n=1}^\infty u_n(x)\)与极限\(\lim_{n\to\infty} \sum_{i=1}^n u_i(x)\)是同一问题。 对其中函数的微分、积分、极限等操作能否与求和或者极限运算交换次序? 在一致收敛条件下可以。

一致收敛: 设\(f_n(x)\)在区间\(I_1\)有极限函数\(f(x)\), 如果任给\(\epsilon>0\),都存在一个不依赖于\(x\)的正整数\(N\), 当\(n \geq N\)时, 对任意\(x \in I_1\)都有 \[ |f_n(x) - f(x)| < \epsilon, \] 则称\(f_n(x)\)在区间\(I_1\)一致收敛到\(f(x)\)。 类似地, 如果级数的部分和序列一致收敛, 则称级数一致收敛。

\(f_n(x)\)在区间\(I_1\)一致收敛到\(f(x)\), 当且仅当 \[ \lim_{n\to\infty} \sup_{x \in I_1} |f_n(x) - f(x)| = 0 . \]

对函数级数\(\sum_{n=1}^\infty u_n(x)\), 如果\(\sum_{i=n+1}^\infty u_i(x)\)一致收敛到0, 则函数级数一致收敛。

极限次序交换: 设函数\(f_n(x)\), \(n=1,2,\dots\)定义在\([a,b]\)上, \(x_0 \in [a,b]\)\(f_n(x)\)\([a,b] \backslash \{x_0\}\)上一致收敛到\(f(x)\), 设 \(\lim_{x \to x_0} f_n(x)\)存在, 则 \[ \lim_{x\to x_0} \lim_{n\to \infty} f_n(x) = \lim_{n\to \infty} \lim_{x\to x_0} f_n(x) . \]

极限与求和号交换次序: 设函数\(u_n(x)\), \(n=1,2,\dots\)定义在\([a,b]\)上, \(x_0 \in [a,b]\)\(\sum_{n=1}^\infty u_n(x)\)\([a,b] \backslash \{x_0\}\)上一致收敛到\(S(x)\), 设 \(\lim_{x \to x_0} u_n(x)\)存在, 则 \[ \lim_{x \to x_0} \sum_{n=1}^\infty u_n(x) = \sum_{n=1}^\infty \lim_{x \to x_0} u_n(x) . \]

如果\(f_n(x)\)是闭区间\([a,b]\)上的连续函数, \(f_n(x)\)\([a,b]\)上一致收敛到\(f(x)\), 则\(f(x)\)也是闭区间\([a,b]\)上的连续函数。

如果\(u_n(x)\)是闭区间\([a,b]\)上的连续函数, \(\sum_{n=1}^\infty u_n(x)\)在在\([a,b]\)上一致收敛到\(S(x)\), 则\(S(x)\)也是闭区间\([a,b]\)上的连续函数。

如果\(u_n(x)\)是开区间\((a,b)\)上的连续函数, \(\sum_{n=1}^\infty u_n(x)\)\((a,b)\)内每一个闭区间上都一致收敛到\(S(x)\), 则\(S(x)\)也是开区间\((a,b)\)上的连续函数。

积分号下取极限: 设\(f_n(x)\)是闭区间\([a,b]\)上的连续函数, \(f_n(x)\)\([a,b]\)上一致收敛到\(f(x)\), 则 \[ \lim_{n\to\infty} \int_a^b f_n(x) \,dx = \int_a^b \lim_{n\to\infty} f_n(x) \,dx . \]

积分与求和号交换次序: 设\(u_n(x)\)是闭区间\([a,b]\)上的连续函数, 级数\(\sum_{n=1}^\infty u_n(x)\)在在\([a,b]\)上一致收敛到\(S(x)\), 则 \[ \int_a^b \sum_{n=1}^\infty u_n(x) \,dx = \sum_{n=1}^\infty \int_a^b u_n(x) \,dx . \]

微分与求和号交换次序: 设\(u_n(x)\)在闭区间\([a,b]\)上可微, \(\sum_{n=1}^\infty u_n'(x)\)一致收敛, 且\(\sum_{n=1}^\infty u_n(x)\)至少在某一个点\(x_0\)上收敛, 则\(\sum_{n=1}^\infty u_n(x)\)\([a,b]\)上一致收敛, 且 \[ \left( \sum_{n=1}^\infty u_n(x) \right)' = \sum_{n=1}^\infty u_n'(x) . \]

B.1.5 幂级数

形如 \[ \sum_{n=0}^\infty a_n (x - x_0)^n \] 的函数项级数称为幂级数, 其中\(x_0\)是任意给定实数, \(\{ a_n \}\)是实数列。 实际上只要考虑 \[\begin{align} \sum_{n=0}^\infty a_n x^n . \tag{B.1} \end{align}\]

幂级数(B.1)的收敛区域只有如下三种情况:

  1. 整个实数轴;
  2. 关于原点对称的有限区间\((-R, R)\),可含端点;
  3. 只在\(x=0\)处收敛。

\[ \rho = \varlimsup_{n\to\infty} |a_n|^{1/n}, \]\(0 \leq \rho < \infty\)时, 幂级数(B.1)\(|x| < \frac{1}{\rho}\)绝对收敛; 当\(0 < \rho < \infty\)\(|x|>\frac{1}{\rho}\)时, 幂级数(B.1)发散。 称\(R = \frac{1}{\rho}\)为幂级数的收敛半径, \((-R, R)\)为幂级数的收敛区间。 当\(\rho=0\)时,收敛区间是\((-\infty, \infty)\); 当\(\rho=\infty\)时, 仅在\(x=0\)处收敛。 收敛区间端点处是否收敛不确定。

若幂级数(B.1)\(x = x_1 \neq 0\)处收敛, 则它在\(|x| < |x_1|\)处绝对收敛; 如果级数在\(x = x_0\)处发散,则它在\(|x| > |x_0|\)处也发散。

如果 \[ \lim_{n\to\infty} \frac{|a_{n+1}|}{|a_n|} = l, \] 则幂级数(B.1)的收敛半径\(R = 1/l\)(包括\(l=0\)\(l=\infty\)的情况)。

设幂级数(B.1)的收敛半径\(R>0\), 则对任意\(0 < r < R\),级数在\([-r, r]\)上一致收敛, 称为在\((-R, R)\)内闭一致收敛。

幂级数(B.1)在收敛区间\((-R, R)\)内是连续函数。

幂级数微分: 幂级数(B.1)在收敛区间\((-R, R)\)内可微, 且微分与求和号可交换: \[ \left(\sum_{n=0}^\infty a_n x^n \right)' = \sum_{n=1}^\infty n a_n x^{n-1} , \] 右边的级数与(B.1)有相同的收敛半径。

幂级数积分: 设幂级数(B.1)收敛半径\(R > 0\), 则积分号与求和号可交换: \[ \int_0^x \sum_{n=0}^\infty a_n t^n \,dt = \sum_{n=0}^\infty \frac{a_n}{n+1} x^{n+1} , \] 右边的级数与(B.1)有相同的收敛半径。

泰勒展开: 设函数\(f(x)\)\(I = (x_0 - \delta, x_0 + \delta)\)上有任意阶导数, 且存在正常数\(M\)使得 \[ | f^{(n)}(x) | \leq M^n , \ \forall x \in I, \ n=1,2,\dots, \] 则对\(x \in I\)\[ f(x) = \sum_{n=0}^\infty \frac{f^{(n)}(x_0)}{n!} (x - x_0)^n . \]

B.1.6 傅立叶级数

考虑复数域上的希尔伯特空间 \(L^2[-\pi, \pi] = (L^2[-\pi, \pi], \mathscr B, U)\), 其中\(\mathscr B\)\([-\pi,\pi]\)上的Borel集组成的\(\sigma\)域, \(U\)\([-\pi,\pi]\)上的Lebegue测度。 定义内积为 \[\begin{aligned} <f, g> = E(f \bar g) = \frac{1}{2\pi} \int_{-\pi}^\pi f(x) \bar g(x) dx. \end{aligned}\] 这时\(\{ e_n = e^{inx}, n \in \mathbb Z \}\)构成标准正交基。 如果\(f \in L^2[-\pi, \pi]\)\[\begin{aligned} < f, e_j > = 0, \ \forall j \in \mathbb Z \end{aligned}\]\[\begin{aligned} f(x) = 0, \ \text{a.e.} \end{aligned}\]

\(f \in L^2[-\pi, \pi]\), 令 \[\begin{aligned} S_n f = \sum_{j=-n}^n <f, e_j> e_j, \end{aligned}\] 其中 \[\begin{aligned} <f, e_j> = \frac{1}{2\pi} \int_{-\pi}^\pi e^{-ijx} f(x) dx \end{aligned}\] 叫做\(f\)的Fourier系数, Fourier系数列必平方可和。 \(S_n f\)叫做\(f\)\(n\)阶Fourier逼近, \(S_n f\)\(f\)\(\overline{\mbox{sp}}\{e_j, |j| \leq n \}\)上的投影。

\(S_n f\)均方极限存在且等于\(f\)\(S_n f\)的极限写成函数级数 \[\begin{aligned} S f = \sum_{j=-\infty}^\infty <f, e_j> e_j. \end{aligned}\]

\[\begin{aligned} L^2[-\pi, \pi] = \overline{\mbox{sp}}\{ e_j, j \in \mathbb Z \}. \end{aligned}\]

\[\begin{aligned} \| f \|^2 = \sum_{j=-\infty}^\infty | < f, e_j > |^2. \end{aligned}\]

\[\begin{aligned} <f, g> = \sum_{j=-\infty}^\infty <f, e_j> \cdot \overline{<g, e_j>}. \end{aligned}\]

\(f(x)\)是以\(2\pi\)为周期的连续函数, 则任给\(\varepsilon>0\), 存在三角多项式 \[\begin{aligned} T_n(x) = \frac{a_0}{2} + \sum_{j=1}^{n} \left\{ a_j \cos(jx) + b_j \sin(jx) \right\} \end{aligned}\] 使得 \[\begin{aligned} |f(x) - T_n(x)| < \varepsilon,\ \forall x \in (-\infty,\infty) \end{aligned}\] 事实上, \[\begin{aligned} n^{-1}(S_0 f + S_1 f + \dots S_{n-1} f) \to f \end{aligned}\]\([-\pi,\pi]\)一致收敛\((n\to\infty)\)

\(f(x)\)是以\(2\pi\)为周期的连续函数, 且\(f' \in L^2[-\pi,\pi]\), 则\(S_n f\)不仅均方收敛到\(f\), 而且绝对一致收敛到\(f\)。 (见(Brockwell and Davis 1987)§2.8, §2.11)。

对于以\(2\pi\)为周期的函数\(f(x)\), 如果在\([-\pi, \pi]\)上可积(有瑕点时绝对可积), 则可以计算 \[\begin{aligned} a_n =& \frac{1}{\pi} \int_{-\pi}^{\pi} f(x) \cos(nx) dx, \ n=0, 1, 2, \dots \\ b_n =& \frac{1}{\pi} \int_{-\pi}^{\pi} f(x) \sin(nx) dx, \ n=1, 2, \dots \end{aligned}\] 并形式地写出函数级数 \[\begin{aligned} \frac{a_0}{2} + \sum_{n=1}^{\infty} \left\{ a_n \cos(nx) + b_n \sin(nx) \right\} \end{aligned}\] 但不能保证级数收敛且收敛到\(f(x)\)

如果\(f(x)\)\(x=x_0\)处满足\(\alpha\)级(\(0<\alpha \leq 1\))李普希兹条件: \[\begin{aligned} | f(x_0 \pm t) - f(x_0) | \leq L t^\alpha, \ 0<t\leq \delta \end{aligned}\] (其中\(L>0, \delta>0\)), 则\(f(x)\)的傅立叶级数在\(x_0\)处收敛到\(f(x)\)

\(f(x)\)\([a,b]\)逐段可微(除了有限个点外可微,在这些点上有左右导数), 则其傅立叶级数在每个\(x=x_0\)处均收敛到 \[\begin{aligned} S_0 = \frac{f(x_0+0) + f(x_0-0)}{2} \end{aligned}\] 当然,除去不可微的有限个点之外都收敛到\(f(x_0)\)

若对点\(x_0\)存在\(h>0\)使得\(f(x)\)\([x_0 - h, x_0]\)\([x_0, x_0 + h]\)分别单调, 则\(f(x)\)的傅立叶级数在\(x_0\)收敛到 \[\begin{aligned} \frac{f(x_0+0) + f(x_0-0)}{2} \end{aligned}\]

\(f(x)\)逐段单调,则其傅立叶级数对任意\(x_0\)均收敛到 \[\begin{aligned} \frac{f(x_0+0) + f(x_0-0)}{2} \end{aligned}\]

\(f(x)\)在区间\([-\pi,\pi]\)上平方可积, 则\(\forall \varepsilon>0\), 存在三角多项式\(T(x)\)使得 \[\begin{aligned} \int_{-\pi}^\pi | f(x) - T(x) |^2 dx < \varepsilon \end{aligned}\]

\(f(x)\)在区间\([-\pi,\pi]\)上黎曼可积或在广义积分意义下平方可积, 设\(S_n(f,x)\)为其傅立叶级数的部分和, 则 \[\begin{aligned} \lim_{n\to\infty} \int_{-\pi}^\pi | f(x) - S_n(f,x) |^2 dx = 0 \end{aligned}\]

B.1.7 参变积分

定理B.8 (参变积分连续性(一)) 设二元函数\(f(x,y)\)\([a,b] \times [\alpha, \beta]\)上的连续函数, 则 \[ g(x) = \int_{\alpha}^{\beta} f(x, y) \,dy \]\([a,b]\)上的连续函数。

推论(积分号下取极限) 在定理条件下对\(x_0 \in [a,b]\)\[ \lim_{x\to x_0} \int_{\alpha}^{\beta} f(x, y) \,dy = \int_{\alpha}^{\beta} \lim_{x\to x_0} f(x, y) \,dy . \]

如果是广义积分或者瑕积分则需要更强的条件。

定理B.9 (参变积分连续性(二)) 设二元函数\(f(x,y)\)\([a,b] \times [\alpha, \beta]\)上的连续函数, \(\phi(x)\), \(\psi(x)\)\([a, b]\)上的连续函数且取值于\([\alpha,\beta]\), 则 \[ g(x) = \int_{\phi(x)}^{\psi(x)} f(x, y) \,dy \]\([a,b]\)上的连续函数。

定理B.10 (积分号下求导) \(f(x,y)\)\(\frac{\partial f(x,y)}{\partial x}\)都是\([a,b] \times [\alpha, \beta]\)上的连续函数, 则 \[ g(x) = \int_{\alpha}^{\beta} f(x, y) \,dy \]\([a,b]\)上可微,且 \[ g'(x) = \frac{\partial }{\partial x} \int_{\alpha}^{\beta} f(x, y) \,dy = \int_{\alpha}^{\beta} \frac{\partial f(x,y)}{\partial x} \,dy . \]

定理B.11 (参变积分求导) \(f(x,y)\)\(\frac{\partial f(x,y)}{\partial x}\)都是\([a,b] \times [\alpha, \beta]\)上的连续函数, \(\phi(x)\), \(\psi(x)\)\([a, b]\)上的可微函数且取值于\([\alpha,\beta]\), 则 \[ g(x) = \int_{\phi(x)}^{\psi(x)} f(x, y) \,dy \]\([a,b]\)上可微,且 \[\begin{aligned} g'(x) =& \frac{\partial }{\partial x} \int_{\phi(x)}^{\psi(x)} f(x, y) \,dy \\ =& \int_{\phi(x)}^{\psi(x)} \frac{\partial f(x,y)}{\partial x} \,dy + f(x, \psi(x)) \psi'(x) - f(x, \phi(x)) \phi'(x) . \end{aligned}\]

B.1.8 向量和矩阵的微分

B.1.8.1 关于向量的微分

\(f : \mathbb R^p \rightarrow \mathbb R\), 记\(\frac{\partial f(\boldsymbol x)}{\partial \boldsymbol x}\)\(f\)\(p\)个一阶偏导数组成的列向量, 称为\(f\)的梯度, 记一阶偏导数组成的行向量为 \(\frac{\partial f(\boldsymbol x)}{\partial \boldsymbol x^T}\)

\(\frac{\partial^2 f(\boldsymbol x)}{\partial \boldsymbol x \partial \boldsymbol x^T}\)\(f\)的二阶偏导数组成的\(p \times p\)矩阵, 称为\(f\)的海色阵(Hessian)。

\(\boldsymbol a\)\(p\)维列向量,\(A\)\(p \times p\)对称阵, 则 \[\begin{align*} & \frac{\partial (\boldsymbol a^T \boldsymbol x )}{\partial \boldsymbol x} = \boldsymbol a, \quad \frac{\partial (\boldsymbol x^T \boldsymbol a )}{\partial \boldsymbol x} = \boldsymbol a, \\ & \frac{\partial (\boldsymbol x^T A \boldsymbol x)}{\partial \boldsymbol x} = 2 A \boldsymbol x, \\ & \frac{\partial^2 (\boldsymbol x^T A \boldsymbol x)}{\partial \boldsymbol x \partial \boldsymbol x^T} = 2 A . \end{align*}\]

B.1.8.2 关于矩阵的微分

\(f(\boldsymbol X)\)是以矩阵\(\boldsymbol X = (x_{ij})_{m \times n}\)为自变量的实值函数, 关于各矩阵元素可导, 记\(\frac{\partial f(\boldsymbol X)}{\partial \boldsymbol X}\) 表示\(f\)关于每个元素\(x_{ij}\)的偏导数组成的矩阵, 即 \[ \left( \frac{\partial f(\boldsymbol X)}{\partial x_{ij}} \right)_{m \times n} . \]

性质:

\(\boldsymbol X_{m\times n}\), \[\begin{aligned} & \frac{\partial f(\boldsymbol X)}{\partial \boldsymbol X^T} = \left( \frac{\partial f(\boldsymbol X)}{\partial \boldsymbol X} \right)^T . \\ \end{aligned}\]

\(\boldsymbol X_{m\times n}\)\(\boldsymbol A_{n \times m}\)\[\begin{aligned} & \frac{\partial \text{tr}(\boldsymbol X \boldsymbol A)}{\partial \boldsymbol X} = \frac{\partial \text{tr}(\boldsymbol A \boldsymbol X)}{\partial \boldsymbol X} = \boldsymbol A^T, \end{aligned}\]\(\boldsymbol X_{m\times n}\)\(\boldsymbol A_{m \times n}\)\[\begin{aligned} & \frac{\partial \text{tr}(\boldsymbol X^T \boldsymbol A)}{\partial \boldsymbol X} = \frac{\partial \text{tr}(\boldsymbol A \boldsymbol X^T)}{\partial \boldsymbol X} = \boldsymbol A . \\ \end{aligned}\]

\(\boldsymbol X_{m\times n}\), \(\boldsymbol A_{p\times m}\), \(\boldsymbol B_{n\times p}\), \[\begin{aligned} & \frac{\partial \text{tr}(\boldsymbol A \boldsymbol X \boldsymbol B)}{\partial \boldsymbol X} = \frac{\partial \text{tr}(\boldsymbol B \boldsymbol A \boldsymbol X)}{\partial \boldsymbol X} = \boldsymbol A^T \boldsymbol B^T . \\ \end{aligned}\]

\(\boldsymbol X_{m\times n}\)和对称阵\(\boldsymbol A_{n\times n}\), \[\begin{aligned} & \frac{\partial \text{tr}(\boldsymbol X \boldsymbol A \boldsymbol X^T)}{\partial \boldsymbol X} = 2 \boldsymbol X \boldsymbol A . \end{aligned}\]

\(\boldsymbol X_{m\times n}\), \(\boldsymbol A_{n\times m}\), \(\boldsymbol B_{n\times m}\), \[\begin{aligned} & \frac{\partial \text{tr}(\boldsymbol X \boldsymbol A \boldsymbol X \boldsymbol B)}{\partial \boldsymbol X} = \boldsymbol B^T \boldsymbol X^T \boldsymbol A^T + \boldsymbol A^T \boldsymbol X^T \boldsymbol B^T . \end{aligned}\]

\(\boldsymbol X_{m\times n}\), \(\boldsymbol A_{n\times n}\), \(\boldsymbol B_{m\times m}\), \[\begin{aligned} & \frac{\partial \text{tr}(\boldsymbol X \boldsymbol A \boldsymbol X^T \boldsymbol B)}{\partial \boldsymbol X} = \boldsymbol B^T \boldsymbol X \boldsymbol A^T + \boldsymbol B \boldsymbol X \boldsymbol A . \end{aligned}\]

\(\boldsymbol X_{m\times n}\), \(\boldsymbol B_{m\times m}\), \[\begin{aligned} & \frac{\partial \text{tr}(\boldsymbol X^T \boldsymbol X \boldsymbol B)}{\partial \boldsymbol X} = \boldsymbol X ( \boldsymbol B + \boldsymbol B^T) . \end{aligned}\]

对可逆的\(m\times m\)矩阵\(\boldsymbol X\),有 \[\begin{aligned} \frac{\partial \log \text{det}(\boldsymbol X)}{\partial \boldsymbol X} =& (\boldsymbol X^T)^{-1}, \\ \frac{\partial \text{det}(\boldsymbol X^{-1})}{\partial \boldsymbol X} =& -\frac{1}{\text{det}(\boldsymbol X)} (\boldsymbol X^T)^{-1}, \\ \frac{\partial \text{det}(\boldsymbol X^{-1})}{\partial \boldsymbol X^{-1}} =& -\text{det}(\boldsymbol X) \boldsymbol X^T . \\ \end{aligned}\]

\(f : \mathbb R^p \rightarrow \mathbb R\), 记\(\frac{\partial f(\boldsymbol x)}{\partial \boldsymbol x}\)\(f\)\(p\)个一阶偏导数组成的列向量, 称为\(f\)的梯度, 记一阶偏导数组成的行向量为 \(\frac{\partial f(\boldsymbol x)}{\partial \boldsymbol x^T}\)

\(\frac{\partial^2 f(\boldsymbol x)}{\partial \boldsymbol x \partial \boldsymbol x^T}\)\(f\)的二阶偏导数组成的\(p \times p\)矩阵, 称为\(f\)的海色阵(Hessian)。

\(\boldsymbol a\)\(p\)维列向量,\(A\)\(p \times p\)对称阵, 则 \[\begin{aligned} & \frac{\partial (\boldsymbol a^T \boldsymbol x )}{\partial \boldsymbol x} = \frac{\partial (\boldsymbol x^T \boldsymbol a )}{\partial \boldsymbol x} = \boldsymbol a, \\ & \frac{\partial (\boldsymbol x^T A \boldsymbol x)}{\partial \boldsymbol x} = 2 A \boldsymbol x, \\ & \frac{\partial^2 (\boldsymbol x^T A \boldsymbol x)}{\partial \boldsymbol x \partial \boldsymbol x^T} = 2 A . \end{aligned}\]

B.2 概率论

B.2.1 测度与概率

σ代数: 设\(\Omega\)为集合, \(\mathscr F\)\(\Omega\)的子集组成的非空集合, 称为集类。如果\(\mathscr F\)满足以下条件:

  1. 对“余”运算封闭: \(\forall A \in \mathscr F\)都有\(A^c \in \mathscr F\)

  2. 对“可数和”运算封闭: 若\(\{ A_n: n \geq 1 \} \subset \mathscr F\), 则\(\bigcup_{n=1}^\infty A_n \subset \mathscr F\)

则称\(\mathscr F\)为σ域或者σ代数。 由定义易见\(\Omega \in \mathscr F\)\(\emptyset \in \mathscr F\)\(\{ \Omega, \emptyset \}\)构成最小的σ域。 \(\Omega\)的所有子集组成的集合构成最大的σ域。

\((\Omega, \mathscr F)\)为可测空间。

\(\Omega\)为实数域中的区间\(I\), 包含其中的所有闭区间的最小的σ域称为\(I\)上的Borel σ域, 记作\(\mathscr B(I)\)。 实数域上的Borel σ域记作\(\mathscr B\)

\((\Omega, \mathscr F)\)为可测空间, 定义在\(\mathscr F\)上的实值函数\(\mu(\cdot)\)称为一个测度, 如果:

  1. \(P(A) \geq 0\), \(\forall A \in \mathscr F\);

  2. \(\{ A_n: n \geq 1 \} \subset \mathscr F\), 如果\(\{ A_n \}\)互不相交, 则\(P(\bigcup_{n=1}^\infty A_n) = \sum_{n=1}^\infty P(A_n)\),

则称\(\mu(\cdot)\)是可测空间\((\Omega, \mathscr F)\)上的一个测度

\(\mathscr B\)\(\mathscr B(I)\), 定义测度\(\mu(\cdot)\)使得 \[ \mu([a,b]) = b - a, \]\(\mu(\cdot)\)为Lebesgue(勒贝格)测度, 这是区间长度的推广。

\(\mathscr F\)上定义函数\(P(\cdot)\), 满足:

  1. \(P(A) \geq 0\), \(\forall A \in \mathscr F\);

  2. \(P(\Omega) = 1\);

  3. \(\{ A_n: n \geq 1 \} \subset \mathscr F\), 如果\(\{ A_n \}\)互不相交, 则\(P(\bigcup_{n=1}^\infty A_n) = \sum_{n=1}^\infty P(A_n)\)

则称\(P(\cdot)\)是可测空间\((\Omega, \mathscr F)\)上的概率测度, 称\((\Omega, \mathscr F, P)\)概率空间。 概率测度是满足\(P(\Omega)=1\)的测度。

\(X = X(\omega)\)是定义在\(\Omega\)上的函数, 如果\(\forall x \in (-\infty, \infty)\), 事件\(\{\omega: X(\omega) \leq x \} \in \mathscr F\), 则称\(X\)为测度空间\((\Omega, \mathscr F)\)上的可测函数; 对概率空间\((\Omega, \mathscr F, P)\), 称\(X\)随机变量。 随机变量是可测空间\((\Omega, \mathscr F)\)到可测空间\((\mathbb R, \mathscr B)\)的可测映射。

\(B \in \mathscr B\), 令\(P_X(B) = P(X \in B)\), 则\((\mathbb R, \mathscr B, P_X)\)构成概率空间, 称为随机变量\(X\)的样本概率空间。

随机变量\(X\)分布函数\[ F(x) = P(X \leq x), \ x \in (-\infty, \infty) \] 分布函数是单调不减右连续函数, \(\lim_{x \to -\infty} F(x) = 0\), \(\lim_{x \to \infty} F(x) = 1\)。 满足这样条件的函数必为某个随机变量的分布函数。

\(g(\cdot)\)为Borel可测函数, 则 \[ E g(X) = \int_{-\infty}^\infty g(x) d F(x) \] 只要右侧的积分存在。

B.2.2 矩不等式

B.2.2.1 高阶矩存在则低阶矩存在

\(0 < r_1 < r_2\), 若\(E|X|^{r_2} < \infty\), 必有\(E|X|^{r_1} < \infty\)。 事实上, \[\begin{aligned} |x|^{r_1} & \begin{cases} \leq 1, & |x| \leq 1 \\ \leq |x|^{r_2}, & |x| > 1 \end{cases} \\ &\leq 1 + |x|^{r_2} \end{aligned}\] 所以\(E|X|^{r_1} \leq 1 + E|X|^{r_2}\)

B.2.2.2 \(C_r\)不等式

\[ c_r = \begin{cases} 1, & 0 < r \leq 1 \\ 2^{r-1}, & r > 1 \end{cases} \] 则对随机变量\(X, Y\)\[ E|X + Y|^r \leq c_r (E|X|^r + E|Y|^r) \] 称上述不等式为\(C_r\)不等式。

下面证明。 对\(0 < r \leq 1\)\[ |a + b|^r \leq (|a| + |b|)^r \leq |a|^r + |b|^r \]

事实上, 只要证明\((|a| + |b|)^r - |a|^r - |b|^r \leq 0\), 不妨设\(a > 0\), \(b>0\), 只要证明\(f(x) = 1 - [x^r + (1 - x)^r] \geq 0\), \(x \in [0, 1]\)。 易见\(f(0) = f(1) = 0\), \(f''(x) = r(1-r)(x^{r-2} + (1-x)^{r-2}) > 0, \forall 0 < x < 1\), 所以\(f(x) \leq 0, 0 \leq x \leq 1\)

\(r > 1\), 有 \[ (a + b)^r \leq 2^{r-1}(|a|^r + |b|^r) \] 事实上,不妨设\(a>0, b>0\),只要证明 \((a + b)^r - 2^{r-1}(a^r + b^r) < 0\), 只要证对\(0 \leq x \leq 1\)\(f(x) = 1 - 2^{r-1}(x^r + (1-x)^r) \leq 0\)。 易见\(f(0)<0, f(1)<0\)\(f''(x) = -2^{r-1} r (r-1) [x^{r-2} + (1-x)^{r-2}] < 0, x \in (0,1)\)\(f(x)\)是凹函数, 有唯一的最大值点, 令\(f'(x)=0\)\(x=\frac12\)为最大值点, 而\(f(\frac12)=0\), 所以\(f(x) \leq 0\), \(x \in [0,1]\)

利用\(C_r\)记号则有如下\(c_r\)不等式: \[ (a + b)^r \leq c_r(|a|^r + |b|^r) \] 从而对随机变量\(X, Y\)\[ E|X + Y|^r \leq c_r (E|X|^r + E|Y|^r) \]

B.2.2.3 Hölder不等式

\(p>1\), \(q>1\), \(\frac{1}{p} + \frac{1}{q} = 1\), 随机变量\(X, Y\), 有如下的Hölder不等式: \[ E|XY| \leq (E|X|^p)^{\frac{1}{p}} (E|Y|^q)^{\frac{1}{q}} \]\(\| X \|_p = (E|X|^p)^{\frac{1}{p}}\), 不等式可以写成 \[ E|XY| \leq \| X \|_p \; \| Y \|_q \] 特别地, 当\(p=q=2\)时为如下的Schwarz不等式: \[ E|XY| \leq \sqrt{EX^2 EY^2} \]

证明可以利用如下的Young不等式:

\(p>1\), \(q>1\), \(\frac{1}{p} + \frac{1}{q} = 1\), \(a>0\), \(b>0\), 有 \[ ab \leq \frac{1}{p} a^p + \frac{1}{q} b^q \] 等号成立当且仅当\(a^p = b^q\)

Young不等式证明: \(\frac{1}{q} = 1 - \frac{1}{p} = \frac{p-1}{p}\), \(q = \frac{p}{p-1}\)。 固定\(b>0\), 令 \[ f(a) = \frac{1}{p} a^p + \frac{1}{q} b^q - ab \] 只要证明\(f(a) \geq 0\)且等号成立当且仅当\(a = b^{\frac{1}{p-1}}\)。 求导得 \[ f'(a) = a^{p-1} - b \]\(f'(a) = 0\)解得\(a^* = b^{\frac{1}{p-1}}\)。 对\(a = a^*\)\[\begin{aligned} f(a^*) =& \frac{1}{p} b^{\frac{p}{p-1}} + \frac{p-1}{p} b^{\frac{p}{p-1}} - b^{\frac{1}{p-1}} b \\ =& 0 \end{aligned}\] 注意到\(a<a^*\)\(f'(a) < 0\), \(a > a^*\)\(f'(a)>0\), 所以\(a=a^*\)\(f(a)\)的唯一的严格最小值点, 故 \(f(a) > f(a^*) = 0\),对\(a \neq a^*\), 而\(f(a^*)=0\)是唯一的一个取等号的点。 Young不等式证毕。

Hölder不等式证明

\(p>1\), \(q>1\), \(\frac{1}{p} + \frac{1}{q} = 1\), 取 \[ a = \frac{|X|}{(E|X|^p)^{\frac{1}{p}}}, b = \frac{|Y|}{(E|Y|^q)^{\frac{1}{q}}} \] 利用Young不等式有 \[ \frac{|XY|}{(E|X|^p)^{\frac{1}{p}} (E|Y|^q)^{\frac{1}{q}}} \leq \frac{1}{p} \frac{|X|^p}{E|X|^p)} + \frac{1}{q} \frac{|Y|^q}{E|Y|^q} \] 所以 \[\begin{aligned} |XY| \leq& \frac{1}{p} |X|^p (E|X|^p)^{\frac{1}{p} - 1} (E|Y|^q)^{\frac{1}{q}} + \frac{1}{q} |Y|^q (E|Y|^q)^{\frac{1}{q} - 1} (E|X|^p)^{\frac{1}{p}} \end{aligned}\] 两边取期望得 \[\begin{aligned} E|XY| \leq& \frac{1}{p} (E|X|^p)^{\frac{1}{p}} (E|Y|^q)^{\frac{1}{q}} + \frac{1}{q} (E|Y|^q)^{\frac{1}{q}} (E|X|^p)^{\frac{1}{p}} \\ =& (E|X|^p)^{\frac{1}{p}} (E|Y|^q)^{\frac{1}{q}} \end{aligned}\] 得证。

B.2.2.4 Minkowski不等式

\(p \geq 1\), 记\(\| X \|_p = (E|X|^p)^{\frac{1}{p}}\), 有 \[ \| X + Y \|_p \leq \| X \|_p + \| Y \|_p \]

证明

\(p=1\)\(E|X + Y| \leq E|X| + E|Y|\)显然。 对\(p>1\),利用Hölder不等式,有 \[\begin{aligned} \| X+Y \|_p^p =& ( E|X + Y|^p )^{\frac{1}{p}} \leq E \left( |X| \cdot |X+Y|^{p-1} \right) + E \left( |Y| \cdot |X+Y|^{p-1} \right) \\ \leq& \| X \|_p \left( E|X+Y|^{(p-1)q} \right)^{\frac{1}{q}} + \| Y \|_p \left( E|X+Y|^{(p-1)q} \right)^{\frac{1}{q}} \\ \end{aligned}\] 注意到\(\frac{1}{q} = \frac{p-1}{p}\), \(q = \frac{p}{p-1}\), \((p-1)q = p\), 所以 \[ \| X+Y \|_p^p \leq \left( \| X \|_p + \| Y \|_p \right) \|X+Y\|_p^{\frac{p}{q}} \]\[ p - \frac{p}{q} = p (1 - \frac{1}{q}) = p \frac{1}{p} = 1 \] 所以 \[ \| X+Y \|_p \leq \| X \|_p + \| Y \|_p \] 成立。

B.2.2.5 Jensen不等式

定理B.12 \(g(\cdot)\)为凸函数, \(X\)为随机变量, \(Eg(X)\)\(EX\)存在,则 \[ g(EX) \leq E g(X) \] 等号成立当且仅当存在常数\(c\)使得\(X=c\), a.s.

证明略。

B.2.2.6 \(\log E|X|^p\)\(p\)的凸函数

\(p\geq 0\)\(g(p) = \log E|X|^p\)\(p\)的凸函数。

利用Schwarz不等式, 设\(0 \leq p_1 < p_2\), 有 \[\begin{aligned} \left( E |X|^{\frac{p_1 + p_2}{2}} \right)^2 =& \left\{ E\left( |X|^{\frac{p_1}{2}} |X|^{\frac{2_1}{2}} \right) \right\}^2 \\ \leq& E |X|^{p_1} \cdot E |X|^{p_2} \end{aligned}\] 取对数得 \[ 2 \log E |X|^{\frac{p_1 + p_2}{2}} \leq \log E |X|^{p_1} + \log E E |X|^{2_1} \]\[ g(\frac12 p_1 + \frac12 p_2) \leq \frac12 g(p_1) + \frac12 g(p_2) \] 易见\(g(p)\)关于\(p\)连续, 所以\(g(p) = \log E|X|^p\)\(p\geq 0\)的凸函数。

B.2.3 可测函数极限

随机变量是概率空间\((\Omega, \mathscr F, P)\)上的可测函数。 设\(X = X(\omega)\)\((\Omega, \mathscr F, P)\)上的可测函数, 允许取\(+\infty\)\(-\infty\)值。 称\(X\) a.s.有限,如果 \(P(X = \pm \infty)=0\)

\(X(\omega)\)\(Y(\omega)\)\(\Omega\)上的函数, 如果存在零概率事件\(N \in \mathscr F\), 使得\(\{\omega: X(\omega) \neq Y(\omega) \} \subset N\), 称\(X\)\(Y\) a.s.相等或者a.e.相等(几乎处处相等)。

如果\(Y(\omega)\)\(\Omega\)上的函数, \(X(\omega)\)是随机变量, 使得\(Y\)\(X\) a.s.相等, 则称\(Y\) a.s.可测或几乎处处可测。 注意这时\(\{\omega:\; Y(\omega) \neq X(\omega) \}\)包含于零概率集合但是本身不一定是可测集, 所以几乎处处可测不一定可测, \(Y\)不一定是随机变量(\((\Omega, \mathscr F)\)可测函数), 但是在等价性的角度来看可以看成是随机变量。

\(X_n\)是随机变量序列且\(P(X_n = \pm\infty)=0\)\(X(\omega)\)\(\Omega\)上的函数, 若存在零概率集合\(N \in \mathscr F\)使得 \(\{ \omega:\; X_n(\omega) \not\to X(\omega) \} \subset N\), 称\(X_n\)几乎处处收敛到\(X\), 或者a.s.收敛到\(X\), \(X\)一定是几乎处处可测的。 事实上,令 \[ \tilde X(\omega) = \begin{cases} \lim_n X_n(\omega), & \omega \notin N \\ 0, & \omega \in N \end{cases} \]\(\tilde X\)可测且与\(X\)几乎处处相等。

如果\(\forall \omega \in \Omega\)\(X_n(\omega) \to X(\omega)\)\(X_n\)可测, 则\(X\)可测。

如果将几乎处处相等的\(\Omega\)上的函数看成同一个函数, 则随机变量序列的几乎处处极限如果存在就是唯一的。 当\(\mathscr F\)\(P\)是完全的, 几乎处处极限\(X\)是可测的(即随机变量)。

所谓完全测度, 是指如果\(N \in \mathscr F\)使得\(P(N)=0\), 则对任何\(A \subset N\)都有\(A \in \mathscr F\), 称\(\mathscr F\)对测度\(P\)是完全的。

参见朱成熹《测度论基础》,科学出版社1986。

B.2.4 多元期望和方差阵的性质

\(A, B, C\)为矩阵,\(\boldsymbol M\)为随机矩阵,有 \[\begin{aligned} E( A M B + C) = A E(M) B + C . \end{aligned}\]

\(\boldsymbol a, \boldsymbol b\)为实值向量, \(A, B\)为实值矩阵,\(\boldsymbol X, \boldsymbol Y, \boldsymbol Z\)为实值随机向量,则 \[\begin{aligned} \text{Var}(\boldsymbol a^T \boldsymbol X) =& \boldsymbol a^T \text{Var}(\boldsymbol X) \boldsymbol a \\ \text{Var}(A \boldsymbol X + \boldsymbol b) =& A \text{Var}(\boldsymbol X) A^T \\ \text{Cov}(\boldsymbol X + \boldsymbol Y, \boldsymbol Z) =& \text{Cov}(\boldsymbol X, \boldsymbol Z) + \text{Cov}(\boldsymbol Y, \boldsymbol Z) \\ \text{Var}(\boldsymbol X + \boldsymbol Y) =& \text{Var}(\boldsymbol X) + \text{Var}(\boldsymbol Y) + \text{Cov}(\boldsymbol X, \boldsymbol Y) + \text{Cov}(\boldsymbol Y, \boldsymbol X) \\ \text{Cov}(A \boldsymbol X, B \boldsymbol Y) =& A \text{Cov}(\boldsymbol X, \boldsymbol Y) B^T . \end{aligned}\]

B.3 线性代数

B.3.1 行列式

\(n\)阶方阵\(A\), 行列式为 \[ \text{det}(A) = \sum_{j_1 j_2 \dots j_n} (-1)^{\tau(j_1 j_2 \dots j_n)} a_{1 j_1} a_{2 j_2} \dots a_{n j_n} . \] 其中的求和对所有的\(n!\)\((1,2,\dots,n)\)的全排列\((j_1, j_2, \dots, j_n)\)进行, \(\tau(j_1 j_2 \dots j_n)\)是排列\(j_1 j_2 \dots j_n\)的逆序数,即 \[ \tau(j_1 j_2 \dots j_n) = \#\{(j_i, j_k): 1 \leq i < k \leq n, j_i > j_k \} . \]

行列式可以看成是关于\(n^2\)个自变量的\(n\)次多项式函数。

对方阵\(n\)的元素\(a_{ij}\), 将第\(i\)行和第\(j\)列删去后得到的\(n-1\)阶行列式\(M_{ij}\)称为\(a_{ij}\)的余子式, 而\(A_{ij} = (-1)^{i+j} M_{ij}\)称为\(a_{ij}\)的代数余子式。 行列式按一行或一列展开的公式为 \[\begin{aligned} \text{det}(A) =& \sum_{k=1}^n a_{ik} A_{ik}, \ \forall i \in \{1,2,\dots,n\} \\ =& \sum_{l=1}^n a_{lj} A_{lj}, \ \forall j \in \{1,2,\dots,n\} . \end{aligned}\]

范德蒙(Vandrmonde)行列式: 方阵\(A\)元素为\(a_{ij} = c_j^{i-1}\), 则 \[ \text{det}(A) = \prod_{i < j} (c_j - c_i) . \]

克莱姆(Cramer)法则: 设\(A\)\(n\)阶方阵,\(\boldsymbol b\)\(n\)维向量, 方程组\(A \boldsymbol x = \boldsymbol b\)当且仅当\(\text{det}(A) \neq 0\)时存在唯一解, 且第\(j\)个未知数的解等于将\(A\)的第\(j\)列替换成\(\boldsymbol b\)后的矩阵行列式, 除以\(\text{det}(A)\)的结果。 这样,\(n\)个方程、\(n\)个未知数的方程组在\(\text{det}(A) \neq 0\)时的解都是有理分式形式, 分子和分母的多项式次数为\(n\)

B.4 实变函数

B.4.1 集合运算

\(\mathbb R\)表示实数域, \(\overline{\mathbb R}\)表示\(\mathbb R \cup \{+\infty, -\infty\}\)

对集合\(X\),用\(2^X\)表示\(X\)的所有子集组成的集合(集合族), 称为\(X\)幂集

集合上极限\[ \varlimsup_{n\to\infty} A_n = \bigcap_{n=1}^{\infty} \bigcup_{m=n}^{\infty} A_m = \{\omega:\; \omega \text{在无穷多个} A_n \text{中出现} \} \]

集合下极限\[ \varliminf_{n\to\infty} A_n = \bigcup_{n=1}^{\infty} \bigcap_{m=n}^{\infty} A_m = \{\omega:\; \text{从某个} n\text{开始} \omega \text{属于后续所有的} A_n \} \]

直积(笛卡尔积): 对集合\(A, B\)\(A \times B = \{(x,y): x \in A, y \in B \}\)。 类似可定义\(X_1 \times X_2 \dots \times X_n\)\(X^n\)\(X^T\)(其中\(T\)\(\mathbb R\)的子集)。

上确界:对\(A \subset \mathbb R\)\(m\)\(A\)的一个上界, 且对\(A\)的任意上界\(m'\)都有\(m \leq m'\), 则称\(m\)\(A\)的上确界, 记为\(\sup A\)。 如果\(A\)没有有限的上界则令\(\sup A = +\infty\)。 类似定义下确界。

数列上极限\[ \varlimsup_{n\to\infty} a_n = \lim_{n\to\infty} \sup_{m\geq n} a_m, \] 可以等于\(\pm\infty\)。 类似定义下极限。 类似定义函数上极限和下极限。

集合中元素的个数, 分为三种情况:

  • 有限个;
  • 无限可数个,称为可列个;
  • 无限不可数个。

\(\mathbb R^n=\{(x_1, x_2, \dots, x_n): x_i \in \mathbb R, i=1,2,\dots,n \}\), 模为 \[ \| x \| = \sqrt{x_1^2 + x_2^2 + \dots + x_n^2}, \] 两个点\(x,y\)的距离为\(d(x,y) = \| x - y \|\)

序列\(\{ x_n \} \subset \mathbb R^n\)收敛到极限\(x\),定义为\(\lim_{n\to\infty} \| x_n - x \| = 0\)

\(\mathbb R^n\)中的点集\(A\)中点的分类:

  • 内点\(x\)\(x\)的一个邻域均属于\(A\)
  • 边界点\(x\)\(x \in A\)\(x\)的任意一个邻域均与\(A^c\)都有非空交集。 其中,若\(x\)的一个邻域中仅有\(x\)属于\(A\)\(x\)为孤立点。
  • 聚点\(x\):存在\(x_n \in A\)\(x_n \neq x\)使得\(\lim_{n\to\infty} x_n = x\)

\(A\)\(A\)的所有内点组成的集合的并集称为\(A\)闭包, 记为\(\overline{A}\)

\(\mathbb R^n\)中的闭集\(A\)包含其所有的句点。 即\(A\)对极限运算封闭。 有限多个闭集的并集是闭集, 任意多个闭集的交集是闭集。 闭包是闭集。

\(\mathbb R^n\)中的开集: 所有点都是内点的集合。

生成的σ代数:设全集为\(X\), \(\mathcal A\)\(X\)的一些子集组成的集合族, 称包含\(\mathcal A\)的所有的σ代数的交集为\(\mathcal A\)生成的σ代数。

Borel σ代数\(\mathbb R^n\)中所有开集所生成的σ代数称为Borel σ代数, 记为\(\mathscr B^n\), 其中的集合称为Borel集。 Borel集合的余集、可列并、可列交、上极限、下极限运算结果均是Borel集。

\(\mathbb R\)中任一非空开集是至多可数个互不相交的开区间的并集。 \(\mathbb R^n\)中任意非空开集是至多可数个互不相交的\(n\)为半开矩体的并集。 半开矩体是\([a_1, b_1) \times [a_2, b_2) \times \dots [a_n, b_n)\)这样的集合。

康拓集(Cantor set):从\([0,1]\)中每次中间的一段, 保留端点,重复操作,极限情况下得到的集合。 是非空有界闭集,每个点都是聚点,没有内点, 无穷不可数。

函数\(f: \mathbb R^n \to \mathbb R\)连续, 当且仅当对任意\(\lambda \in \mathbb R\)\(\{ x: f(x) > \lambda \}\)都是开集; 当且仅当对任意\(\lambda \in \mathbb R\)\(\{ x: f(x) \leq \lambda \}\)都是闭集。

B.4.2 勒贝格测度

\(\mathbb R^n\)中的开矩体 \[ I = [a_1, b_1] \times [a_2, b_2] \times \dots [a_n, b_n] , \] 定义其体积为 \[ |I| = \prod_{i=1}^n (b_i - a_i) . \]

\(E \subset \mathbb R^n\)\(\{ I_k \}\)是开矩体列,\(E \subset \bigcup_{k=1}^\infty I_k\)(称\(\{I_k \}\)\(E\)的一个覆盖), 则 \[ m^*(E) = \inf \left\{ \sum_{k=1}^{\infty} |I_k| : \; I_k \text{是开矩体}, E \subset \bigcup_{k=1}^\infty I_k\right\} \] 称为\(E\)的外测度。 外测度非负,单调,满足次可加性\(m^*(E)(\bigcup_{k=1}^\infty E_k) \leq \sum_{k=1}^\infty m^*(E_k)\), 平移不变性\(m^*(E + \{x\}) = m^*(E)\), \(\forall x \in \mathbb R^n\)

\(E + \{ x \} = \{ y + x: y \in E \}\)

勒贝格可测: 设\(E \subset \mathbb R^n\), 若对\(\mathbb R^n\)到任意子集\(T\)都有 \[ m^*(T) = m^*(T \cap E) + m^*(T \cap E^c), \] 则称\(E\)是勒贝格可测集, 简称为可测集,记为\(\mathscr M\)\(\mathscr M_n\)。 当\(E\)可测时记\(m(E) = m^*(E)\), 称为\(E\)的勒贝格测度。

所有开矩体可测,且\(m(I) = |I|\)

所有可测集构成\(\mathbb R^n\)的一个σ代数。 Borel集都可测,即\(\mathscr B^n \subset \mathscr M^n\), 若\(E\)可测, 必存在Borel集\(F, G\)使得\(F \subset E \subset G\)\(m(F) = m(E) = m(G)\), 所以可测集与Borel集可以近似等同看待。

\(X\)是集合, \(\mathscr F\)\(X\)中子集组成的σ代数, 称\((X, \mathscr F)\)可测空间; 如果集合函数\(\mu: \mathscr F \to [0, \infty]\)满足:

(1) \(\mu(\emptyset) = 0\);

(2)\(A_n \in \mathscr F\), \(n=1,2,\dots\)互不相交,则有σ可加性 \[ \mu(\bigcup_{n=1}^\infty A_n) = \sum_{n=1}^\infty \mu(A_n), \] 则称\(\mu\)\((X, \mathscr F)\)上的一个测度, 称\((X, \mathscr F, \mu)\)为测度空间。

如果对任意的零测集\(A\)(满足\(\mu(A)=0\)), 其子集都可测, 称这样的测度空间是完备的。

如果\(\mu(X)<\infty\),称\(\mu\)为有限测度。 如果\(X = \bigcup_{n=1}^\infty A_n\), 其中\(\{ A_n \}\)互不相交, 且\(\mu(A_n) < \infty\), 称\(\mu\)为σ有限测度。

测度对单独增集合列和单调减集合都有连续性: \[ \lim_{n\to\infty} \mu(A_n) = \mu(\lim_{n\to\infty} \mu(A_n) . \]

关于\(x \in \mathbb R^n\)的一个论断\(S(x)\)在可测集\(E\)上几乎处处成立, 记为\(S(x) \text{ a.e.}[E]\), 定义为存在集合\(E_0 \subset E\)\(m(E_0) = 0\), 使得\(S(x)\)对所有\(x \in E \backslash E_0\)成立。 注意不需要\(S(x)\)\(E_0\)上都不成立, 所以不需要测度完备。 当\(E = \mathbb R^n\)时记\(S(x) \text{ a.e.}\)

B.4.3 勒贝格可测函数

考虑从\(\mathbb R^n\)\(\overline{\mathbb R}\)的广义的函数, 并定义\(0 \times \infty = 0\)

可测函数: 设\(E\)\(\mathbb R^n\)中的可测集, \(f: E \to \overline{\mathbb R}\), 如果\(\forall t \in \mathbb R\)\(\{x \in \mathbb R^n: x \in E, f(x) > t \}\)都是可测集, 则称\(f\)\(E\)上的(勒贝格)可测函数。 记\(\mathscr M(E)\)\(E\)上的可测函数的全体。

可测与如下条件等价:\(\forall t \in \mathbb R\)\(\{x \in \mathbb R^n: x \in E, f(x) > t \}\)都可测; \(\{x \in \mathbb R^n: x \in E, f(x) > t \}\)都可测; \(\{x \in \mathbb R^n: x \in E, f(x) \geq t \}\)都可测; \(\{x \in \mathbb R^n: x \in E, f(x) \leq t \}\)都可测。

简单函数:设\(E = \bigcup_{i=1}^m E_i\), \(E_i\)互不相交且可测, \(\alpha_i \in \mathbb R\)\[ \psi(x) = \sum_{i=1}^m \alpha_i I_{E_i}(x) \] 称为\(E\)上的简单函数。 当每个\(E_i\)是矩体时称为阶梯函数。 可测集\(E\)上的简单函数都可测。

可测集\(E\)上非负函数\(f: E \to \overline{\mathbb R}\)可测的充分必要条件是存在\(E\)上的非负简单函数列 \(\{ \psi_k(x) \}\)使得\(\psi_k(x) \leq \psi_{k+1}(x)\), \(\forall x \in E\), 且\(\lim_{k\to\infty} \psi_k(x) = f(x)\), \(\forall x \in E\)

可测函数的运算: 若\(f, g\)\(E\)上的可测函数, \(c \in \mathbb R\), 则\(c f(x)\)可测,\(|f(x)|\)可测, \(f(x) g(x)\)可测; \(f(x) + g(x)\)\(f(x)/g(x)\)在其有定义的集合上可测(除去\(\infty - \infty\), 除以0等无定义的点)。

可测集\(E\)上的连续函数都是可测函数。

对可测集\(E\)上的可测函数列\(f_k(x)\)\(\sup_k f_k(x)\), \(\inf_k f_k(x)\)\(\varlimsup_k f_k(x)\), \(\varliminf_k f_k(x)\)都可测; 如果\(\lim_k f_k(x) = f(x)\)存在则\(f(x)\)可测; 如果存在零测集\(E_0\)使得 \[ \lim_{k\to\infty} f_k(x) = f(x), \ x \in E \backslash E_0, \]\(f_k(x)\)几乎处处收敛到\(f(x)\), 这时\(f(x)\)可测。

可测集\(E\)上的可测函数\(f(x)\)可测, 当且仅当\(f^+(x)\)\(f^-(x)\)都可测。 \[ f^+(x) = \max\{ f(x), 0 \}, \quad f^-(x) = \max\{ -f(x), 0 \} . \] 如果\(f(x): \mathbb R \to \mathbb R\)连续, \(g(x): E \to \mathbb R\)可测,\(E \subset \mathbb R^n\)可测, 则\(f(g(x))\)\(E\)上可测函数。

如果可测集\(E\)上的函数\(f\)\(g\)几乎处处相等, 则它们同时可测或同时不可测。

一般的测度空间\((X, \mathcal F, \mu)\)上的可测函数有类似的定义和性质。

B.4.4 可测函数极限

一致收敛: 设\(E\)为点集, 对\(E \to \mathbb R\)\(f_k\)\(f\)\(\forall \varepsilon > 0\), 存在\(K\)使得\(k \geq K\)\(\forall x \in E\)\(|f(x_k) - f(x)| < \varepsilon\)

几乎一致收敛: 设\(E\)\(\mathbb R^n\)的可测集, \(\forall \delta > 0\),存在\(E_{\delta} \subset E\)使得\(m(E \backslash E_{\delta}) < \delta\), 在\(E_{\delta}\)\(f_k\)一致收敛到\(f\)

一致收敛推出几乎一致收敛。

点点收敛: 设\(E\)为点集, 对\(E \to \mathbb R\)\(f_k\)\(f\), 若\(\lim_{k\to\infty} f_k(x) = f(x)\), \(\forall x \in E\), 称\(f_k(x)\)\(E\)上点点收敛到\(f(x)\)。 如果\(f_k\)都可测, 则\(f\)也可测。

一致收敛推出点点收敛。

几乎处处收敛: 设\(E\)\(\mathbb R^n\)中点集, \(f(x), f_k(x)\)\(E \to \overline{\mathbb R}\)函数, 存在\(Z \subset E\)使得\(m(Z)=0\), \(\forall x \in E \backslash Z\)\(\lim_k f_k(x) = f(x)\), 则称\(f_k(x)\)几乎处处收敛到\(f(x)\), 记为\(\lim_k f_k(x) = f(x)\), a.e.\([E]\)。 如果\(E\)可测,\(f_k\)都可测, 则\(f\)也可测。

几乎一致收敛推出几乎处处收敛。 反过来, 如果\(m(E)<\infty\)\(f_k\)\(f\)都可测且几乎处处有限, 则几乎处处收敛推出几乎一致收敛, 这是叶戈罗夫定理。

依测度收敛: 设\(E\)为可测集, \(f, f_k\)\(E \to \overline{\mathbb R}\)函数, 可测且几乎处处有限, \(\forall \varepsilon>0\)\[ \lim_{k \to \infty} m(\{x \in E:\; |f_k(x) - f(x)| > \varepsilon \}) = 0 . \]

如果两个函数都是同一个函数列的依测度极限, 则这两个函数几乎处处相等。 即在几乎处处意义下依测度收敛的极限是唯一的。

几乎处处收敛推出依测度收敛: 设\(E\)可测,\(m(E)<\infty\)\(f_k(x)\)\(E\)上几乎处处有限的可测函数列, \(f_k(x)\)几乎处处收敛到\(f(x)\), 则\(f(x)\)几乎处处有限且可测, 并且\(f_k(x)\)依测度收敛到\(f(x)\)

依测度收敛有子列几乎处处收敛(Riesz定理): 设\(E\)可测,\(m(E)<\infty\)\(f_k(x)\)\(E\)上几乎处处有限的可测函数列, \(f_k(x)\)依测度收敛到几乎处处有限的可测函数\(f(x)\), 则存在子列\(f_{k_i}(x)\)使得\(f_{k_i}(x)\)几乎处处收敛到\(f(x)\)

依测度收敛当且仅当是依测度基本列: \[ \lim_{k,j\to\infty} m(\{x \in E:\; |f_k(x) - f_j(x)| > \varepsilon \}) = 0 . \]

对可测集\(E \subset \mathbb R^n\)上的几乎处处有限的可测函数\(f\), 必存在\(\mathbb R^n\)上的连续函数列\(\{ g_k(x) \}\)使得\(g_k(x)\)\(E\)上几乎处处收敛到\(f(x)\)

一般的测度空间\((X, \mathcal F, \mu)\)上的可测函数收敛性类似。

B.4.5 勒贝格积分

对可测集\(E \subset \mathbb R^n\)的非负可测简单函数\(h(x):E \to \overline{\mathbb R}\): \[ h(x) = \sum_{j=1}^m \alpha_j I_{E_j}(x), \] 定义勒贝格积分为 \[ \int_{E} h(x) \,dx = \sum_{j=1}^m \alpha_j m(E_j) . \]

对可测集\(E \subset \mathbb R^n\)的非负可测函数\(f(x):E \to \overline{\mathbb R}\), 定义 \[ \int_{E} f(x) \,dx = \sup \left\{ \int_{E} h(x) \,dx :\; h(x) \text{是} E \text{上非负可测简单函数,且} h(x) \leq f(x), \forall x \in E \right\} . \]\(\int_{E} f(x) \,dx < \infty\), 称\(f(x)\)\(E\)上是勒贝格可积的,记为\(f \in L(E)\)

如果\(E\)可测,\(A\)\(E\)的可测子集, \(f(x)\)\(E\)上非负可测函数, 则 \[ \int_{A} f(x) \,dx = \int_{E} f(x) I_A(x) \,dx . \]

Levi定理(非负单调收敛定理): 设\(\{f_k(x) \}\)是可测集\(E\)上的非负可测函数列, \(f_k(x) \leq f_{k+1}(x)\)(\(\forall x \in E\)), 且\(\lim_k f_k(x) = f(x)\), \(\forall x \in E\), 则 \[ \lim_{k\to\infty} \int_{E} f_k(x) \,dx = \int_{E} f(x) \,dx . \]

对可测集\(E\)上可测函数\(f(x)\), 若\(f^+(x)\)\(f^-(x)\)至少一个可积, 则定义 \[ \int_{E} f(x) \,dx = \int_{E} f^+(x) \,dx - \int_{E} f^-(x) \,dx . \] 如果\(f^+(x)\)\(f^-(x)\)都可积, 则称\(f(x)\)\(E\)上勒贝格可积, 记\(f(x) \in L(E)\)

\(f(x)\)可积当且仅当\(|f(x)|\)可积, 且这时 \[ \left| \int_{E} f(x) \,dx \right| \leq \int_{E} |f(x)| \,dx . \]

\(E\)是可测集:

  • 如果\(f = g\) a.e.\([E]\)\(f \in L(E)\)\(g \in L(E)\)\(\int_{E} f(x) \,dx = \int_{E} g(x) \,dx\)
  • 如果\(f(x)\)可测,而\(g(x)\)非负可积,\(f(x) \leq g(x)\), \(\forall x \in E\), 则\(f(x)\)可积且\(\left| \int_{E} f(x) \,dx \right| \leq \int_{E} g(x) \,dx\)
  • \(m(E) < \infty\), 则\(E\)上任意几乎处处有界的可测函数是可积的;
  • \(f, g \in L(E)\), 且\(f(x) \leq g(x)\), a.e.\([E]\), 则\(\int_{E} f(x) \,dx \leq \int_{E} g(x) \,dx\)
  • \(f, g \in L(E)\), \(\alpha, \beta \in \mathbb R\), 则(线性性质) \[ \int_{E} (\alpha f(x) + \beta g(x)) \,dx = \alpha \int_{E} f(x) \,dx + \beta \int_{E} g(x) \,dx . \]

如果\(m(E)=0\), 则\(E\)上的可测函数\(f(x)\)都可积且\(\int_{E} f(x) \,dx = 0\)

若可测集\(E\)上的可测函数\(f(x)\)满足\(\int_{E}|f(x)|\,dx < \infty\), 则\(|f(x)| < \infty\), a.e.\([E]\)

若可测集\(E\)上的可测函数\(f(x)\)满足\(\int_{E}|f(x)|\,dx = 0\), 则\(f(x) = 0\), a.e.\([E]\)

积分的绝对连续性: 对可测集\(E\)上的可测函数\(f(x)\)\(\forall \varepsilon > 0\), 必存在\(\delta > 0\)\(E\)的子集\(A\)只要满足\(m(A) < \delta\)就一定有 \[ \left| \int_A f(x) \,dx \right| \leq \int_A |f(x)| \,dx < \varepsilon . \]

可积函数的连续函数逼近: 对可测集\(E\)上的可测函数\(f(x)\), 存在\(\mathbb R^n\)上有紧支集的连续函数列\(g_k(x)\)使得 \[\begin{aligned} &(1)\ \lim_{k\to\infty} \int_{E}|f(x) - g_k(x)| \,dx = 0; \\ &(2)\ \lim_{k\to\infty} g_k(x) = f(x), \text{ a.e}[E] . \end{aligned}\]

与黎曼积分的关系: 设\(f(x)\)为闭区间\([a,b]\)上的有界函数, 若\(f(x)\)\([a,b]\)黎曼可积, 必勒贝格可积且积分相等; \(f(x)\)\([a,b]\)黎曼可积当且仅当\(f(x)\)的不连续点为零测集。

一般的测度空间\((X, \mathcal F, \mu)\)上也可以类似定义勒贝格积分。

B.4.6 极限与积分的交换

非负单调收敛定理(Levi定理): 若可测集\(E\)上的非负可测函数\(f_k(x)\)满足\(f_k(x) \leq f_{k+1}(x)\), \(\forall x, \forall k\)\(f(x) = \lim_{k\to\infty} f_k(x)\),a.e.\([E]\),则 \[ \lim_{k\to\infty} \int_E f_k(x) \,dx = \int_E f(x) \,dx . \]

勒贝格基本定理: 设\(\{ f_k(x) \}\)是可测集\(E\)上的非负可测函数列, 则 \[ \sum_{k=1}^\infty \int_E f_k(x) \,dx = \int_E \sum_{k=1}^\infty f_k(x) \,dx . \]

Fatou引理: 设\(\{ f_k(x) \}\)是可测集\(E\)上的非负可测函数列, 则 \[ \int_E \varliminf_{k \to \infty} f_k(x) \,dx \leq \varliminf_{k \to \infty} \int_E f_k(x) \,dx . \]

控制收敛定理: 设\(E\)为可测集, \(\{ f_k(x) \}\)\(E\)上可测函数列, \(f_k(x)\)\(E\)上几乎处处收敛到\(f(x)\)或者依测度收敛到\(f(x)\), 若存\(E\)上非负可积函数\(g(x)\)使得\(f_k(x) \leq g(x)\), a.e. \([E]\)\(\forall k\), 则\(f_k(x)\)\(f(x)\)\(E\)上可积且 \[ \lim_{k\to\infty} \int_E f_k(x) \,dx = \int_E f(x) \,dx . \]

有界收敛定理: 若\(m(E)<\infty\)\(\{ f_k(x) \}\)\(E\)的可测函数列, 存在常数\(M\)使得 \[ |f_k(x)| \leq M, \forall x \in E, \forall k, \]\(f_k(x)\)几乎处处或者依测度收敛到函数\(f(x)\), 则\(f_k(x)\)\(f(x)\)可积且 \[ \lim_{k\to\infty} \int_E f_k(x) \,dx = \int_E f(x) \,dx . \]

逐项积分: 设\(E\)\(\mathbb R^n\)的可测集, \(f_k(x) \in L(E)\), 若 \[ \sum_{k=1}^\infty \int_E |f_k(x)| \,dx < \infty, \] 则级数\(\sum_{k=1}^\infty f_k(x)\)几乎处处收敛, 记为\(f(x)\), 则\(f(x) \in L(E)\)\[ \sum_{k=1}^\infty \int_E f_k(x) \,dx = \int_E f(x) \,dx . \]

参变积分: 设\(E\)\(\mathbb R^n\)的可测集, \(f(x,y): E \times [a,b] \to \overline{\mathbb R}\), 对每个\(y \in [a,b]\)\(f(\cdot, y)\)\(E\)上的可积函数, 则 \[ \phi(y) = \int_E f(x, y) \,dx \] 是定义于\([a,b]\)的有限实值函数, 称为区间\([a,b]\)上的参变积分。

对参变积分:

(1) 若存在\(g(x) \in L(E)\)使得 \[ f(x,y) \leq g(x), \ \forall x \in E, \ y \in [a,b] . \]\(\lim_{y \to y_0} f(x, y)\)\(E\)上a.e.收敛, 就有 \[ \lim_{y \to y_0} \phi(y) = \int_E \lim_{y \to y_0} f(x, y) \,dx ; \]

(2) 若存在\(g(x) \in L(E)\)使得 \[ f(x,y) \leq g(x), \ \forall x \in E, \ y \in [a,b] . \] 且对a.e.\([E]\)\(x\)函数\(f(x, \cdot)\)\(y_0\)处连续, 则\(\phi(y)\)\(y_0\)处连续;

(3)\(\frac{\partial f(x,y)}{\partial y}\)存在, 存在\(g(x) \in L(E)\)使得\(|\frac{\partial f(x,y)}{\partial y}| \leq g(x)\), \(\forall x \in E, y \in [a,b]\),则 \[ \phi'(y) = \int_E \frac{\partial f(x,y)}{\partial y} \,dx . \]

B.4.7 重积分与累次积分

\(A\)\(B\)分别为\(\mathbb R^p\)\(\mathbb R^q\)的可测集, 则\(A \times B\)\(\mathbb R^{p+q}\)的可测集且 \[ m(A \times B) = m(A) m(B) . \]

Tonelli定理: 设\(f(x,y): \mathbb R^{p+q} \to \overline{\mathbb R}\)非负可测, 则

(1) 对几乎处处的\(x \in \mathbb R^p\)\(f(x, \cdot)\)\(\mathbb R^q\)的非负可测函数;

(2) \(F_f(x) = \int_{\mathbb R^q} f(x, y) \,dy\)\(\mathbb R^p\)上几乎处处有定义且非负可测;

(3) 重积分与累次积分相等,累次积分次序可交换: \[ \int_{\mathbb R^{p+q}} f(x, y) \,dx dy = \int_{\mathbb R^{p}} dx \int_{\mathbb R^{q}} f(x, y)\,dy = \int_{\mathbb R^{q}} dy \int_{\mathbb R^{p}} f(x, y)\,dx . \]

Fubini定理: 设\(f(x,y): \mathbb R^{p+q} \to \overline{\mathbb R}\)可积, 则

(1) 对几乎处处的\(x \in \mathbb R^p\)\(f(x, \cdot)\)\(\mathbb R^q\)的可积函数;

(2) \(F_f(x) = \int_{\mathbb R^q} f(x, y) \,dy\)\(\mathbb R^p\)上几乎处处有定义且可积;

(3) 重积分与累次积分相等,累次积分次序可交换: \[ \int_{\mathbb R^{p+q}} f(x, y) \,dx dy = \int_{\mathbb R^{p}} dx \int_{\mathbb R^{q}} f(x, y)\,dy = \int_{\mathbb R^{q}} dy \int_{\mathbb R^{p}} f(x, y)\,dx . \]

注意,即使累次积分都存在且相等, \(f(x,y)\)也不一定可积; Fubini定理在使用时, 为了验证\(f(x,y)\)是否可积, 可以先用Tonelli定理计算\(|f(x,y)|\)的累次积分从而判断可积性。

B.5 泛函分析

B.5.1 线性空间和内积空间

实数域上的线性空间 某个集合\(H\)如果定义了如下的加法运算“\(+\)”和数乘运算“\(\cdot\)”,使得 \[\begin{aligned} (1) & \text{若}\boldsymbol x, \boldsymbol y \in H, \text{则}\boldsymbol x + \boldsymbol y \in H, \text{且} \\ & \boldsymbol x + \boldsymbol y = \boldsymbol y + \boldsymbol x \\ & (\boldsymbol x + \boldsymbol y) + \boldsymbol z = \boldsymbol x + (\boldsymbol y + \boldsymbol z), \text{其中} \boldsymbol z \in H \\ & \text{存在零元素} \boldsymbol 0, \text{使得} \boldsymbol x + \boldsymbol 0 = \boldsymbol x, \forall \boldsymbol x \in H \\ & \forall \boldsymbol x \in H, \text{存在负元素} \boldsymbol z \text{使得} \boldsymbol x + \boldsymbol z = \boldsymbol 0 \\ (2) & \text{对标量} \alpha, \beta \in \mathbb R, \text{向量} \boldsymbol x, \boldsymbol y \in H, \text{数乘结果} \alpha \cdot \boldsymbol x \in H, \text{且} \\ & (\alpha + \beta) \cdot \boldsymbol x = \alpha \cdot \boldsymbol x + \beta \cdot \boldsymbol x \\ & \alpha \cdot (\boldsymbol x + \boldsymbol y) = \alpha \cdot \boldsymbol x + \alpha \cdot \boldsymbol y \\ & (\alpha \beta) \cdot \boldsymbol x = \alpha \cdot (\beta \cdot \boldsymbol x) \\ & 1 \cdot \boldsymbol x = \boldsymbol x \end{aligned}\] 则称\(H\)为实数域\(\mathbb R\)上的线性空间。

内积: 实数域\(\mathbb R\)上的线性空间\(H\) 中向量\(\boldsymbol x\)\(\boldsymbol y\)的实值二元函数 \(<\boldsymbol x, \boldsymbol y>\)称为一个内积, 如果满足如下条件: \[\begin{aligned} (1) & <\boldsymbol x, \boldsymbol y> = <\boldsymbol y, \boldsymbol x>, \forall \boldsymbol x, \boldsymbol y \in H \\ (2) & <\boldsymbol x + \boldsymbol y, \boldsymbol z> = <\boldsymbol x, \boldsymbol z> + <\boldsymbol y, \boldsymbol z>, \forall \boldsymbol x, \boldsymbol y, \boldsymbol z \in H \\ (3) & <\alpha \boldsymbol x, \boldsymbol y> = \alpha <\boldsymbol x, \boldsymbol y>, \forall \alpha \in \mathbb R, \boldsymbol x, \boldsymbol y \in H \\ (4) & <\boldsymbol x, \boldsymbol x> \geq 0, \forall \boldsymbol x \in H \\ (5) & <\boldsymbol x, \boldsymbol x>=0 \Longleftrightarrow \boldsymbol x = \boldsymbol 0 . \end{aligned}\] 定义了内积的线性空间称为内积空间\(n\)维欧式空间\(\mathbb R^n\)是内积空间, 内积空间是\(\mathbb R^n\)的推广。

从内积可以导出向量的模(长度、范数): \[ \| \boldsymbol x \| = \sqrt{<\boldsymbol x, \boldsymbol x>} \] \(\| \boldsymbol x \| = 0\)当且仅当\(\boldsymbol x = \boldsymbol 0\)

实数域上的内积空间的内积和内积对应的模总满足Cauchy-Schwarz不等式: \[ |<\boldsymbol x, \boldsymbol y>| \leq \| \boldsymbol x \| \; \| \boldsymbol y \| \] 等号成立当且仅当\(\boldsymbol y = \alpha \boldsymbol x\)\(\boldsymbol x = \beta \boldsymbol y\)。 证明参见(Brockwell and Davis 1987) P.44 §2.1式(2.1.4)的证明。

内积导出的模满足三角不等式: \[ \| \boldsymbol x + \boldsymbol y \| \leq \| \boldsymbol x \| + \| \boldsymbol y \| \] 这可以用Cauchy-Schwarz不等式证明。

范数(模)的定义: 实数域\(\mathbb R\)上的线性空间\(H\)上的实值函数\(\| \bullet \|\)称为一个范数(模), 如果满足如下条件: \[\begin{aligned} (1) & \| \boldsymbol x \| \geq 0, \forall \boldsymbol x \in H \\ (2) & \| \boldsymbol x \| = 0 \Longleftrightarrow \boldsymbol x = \boldsymbol 0, \forall \boldsymbol x \in H \\ (3) & \| \boldsymbol x + \boldsymbol y \| \leq \| \boldsymbol x \| + \| \boldsymbol y \|, \forall \boldsymbol x, \boldsymbol y \in H \\ (4) & \| \alpha \boldsymbol x \| = |\alpha| \; \| \boldsymbol x \|, \forall \alpha \in \mathbb R, \boldsymbol x \in H \end{aligned}\] 定义了范数(模)的线性空间称为度量空间或者赋范空间。

由内积导出的模满足以上的一般范数定义。

在定义了范数以后, 可以定义空间中的元素极限。 对\(\boldsymbol x_n\), \(\boldsymbol x\), 称\(\lim_{n\to\infty} \boldsymbol x_n = \boldsymbol x\), 如果\(\lim_{n\to\infty} \| \boldsymbol x_n - \boldsymbol x \| = 0\)

如果\(H\)是内积空间, 内积有如下的连续性: 若\(\boldsymbol x_n, \boldsymbol y_n, \boldsymbol x, \boldsymbol y \in H\), 且\(\lim_{n\to\infty} x_n = \boldsymbol x\), \(\lim_{n\to\infty} y_n = \boldsymbol y\), 则 \[\begin{aligned} (1) & \| \boldsymbol x_n \| \to \| \boldsymbol x \|, \ n \text{当}\to \infty \\ (2) & <\boldsymbol x_n, \boldsymbol y_n> \to <\boldsymbol x, \boldsymbol y>, \ \text{当}n \to \infty \end{aligned}\] 证明与前面关于\(L^2\)的证明相同。

B.5.2 Hilbert空间

\(H\)为实数域上的内积空间, 序列\(\boldsymbol x_n \in H\), 若\(\lim_{n, m \to \infty} \| \boldsymbol x_n - \boldsymbol x_m \| = 0\), 则称\(\{ \boldsymbol x_n \}\)\(H\)的Cauchy列或基本列。 称\(H\)是完备的(complete), 如果所有Cauchy列都有极限且极限也属于\(H\)。 完备的内积空间又称Hilbert空间

欧式空间\(\mathbb R^n\)是Hilbert空间。

概率空间\((\Omega, \mathscr F, P)\)上所有二阶矩有限的实值随机变量的集合记作\(L^2\)\(L^2\)是Hilbert空间, 内积为\(<X, Y> = E(XY)\)。 0元素是a.s.等于零意义上, 两个元素相等也是a.s.相等意义上。 \(L^2\)的完备性证明略困难一些。

完备性证明: 设\(\{ X_n \}\)\(L^2\)的Cauchy列, 则存在\(\{ n \}\)的子序列\(n_k\), 使得当\(n, m \geq n_k\)时, \[ \| X_n - X_m \| \leq 2^{-3k} \] 由切比雪夫不等式 \[ P(|X_n - X_m| \geq 2^{-k}) \leq 2^{2k} E(X_n - X_m)^2 \leq 2^{-k} \] 由单调收敛定理得 \[\begin{aligned} & E \sum_{k=1}^\infty I[|X_{n_{k+1}} - X_{n_k} \geq 2^{-k}] \\ =& \sum_{k=1}^\infty E I[|X_{n_{k+1}} - X_{n_k} \geq 2^{-k}] \\ =& \sum_{k=1}^\infty P(|X_{n_{k+1}} - X_{n_k} \geq 2^{-k}) \\ \leq& \sum_{k=1}^\infty 2^{-k} < \infty \end{aligned}\] 从而 \[ \sum_{k=1}^\infty I[|X_{n_{k+1}} - X_{n_k}| \geq 2^{-k}] < +\infty, \ \text{a.s.} \] 存在\(\Omega^* \subset \Omega\), \(P(\Omega^*)=1\), 使得\(\forall \omega \in \Omega^*\), 存在\(K_0\)使得\(k \geq k_0\)\(|X_{n_{k+1}} - X_{n_k}| < 2^{-k}\)。 于是\(k\)充分大时 \[ |X_{n_{k+m}} - X_{n_k}| \leq \sum_{j=1}^m | X_{n_{j+1}} - X_{n_j} | \leq \sum_{j=1}^m 2^{-(k + j)} \leq 2^{-k + 1} \] 于是对每个\(\omega \in \Omega^*\), 存在子序列\(X_{n_k}\)使得\(\{ X_{n_k} \}\)是实数基本列,存在极限\(X\)。 利用Fatou引理, \[\begin{aligned} E(X_n - X)^2 =& E \lim_{k\to\infty} [X_n - X_{n_k}]^2 \\ \leq& \varliminf_{k\to\infty} E(X_n - X_{n_k})^2 \\ \to& 0, \ \text{当} n \to \infty \end{aligned}\] 由三角不等式, \[ \sqrt{E X^2} = \| X \| \leq \| X_n - X \| + \| X_n \| < \infty \] 所以极限\(X \in L^2\)。 这就证明了\(L^2\)的完备性。 因为\(L^2\)中的元素是在a.s.相等意义下的, 所以\(X\)可以是a.s.可测的。

○○○○○○

平方可积函数的Hilber空间\(L^2(d\lambda)\): 这是定义在有限区间\((a,b)\)上的平方可积函数全体,在其中定义内积 \[\begin{aligned} <f,g> = \int_a^b f g d \lambda \end{aligned}\]

B.5.3 投影

\(H\)为Hilbert空间, 若\(<\boldsymbol x, \boldsymbol y>=0\)则称\(\boldsymbol x\)\(\boldsymbol y\)正交, 记作\(\boldsymbol x \perp \boldsymbol y\)

\(S\)\(H\)的子线性空间, 如果\(S\)中的收敛序列的极限都在\(S\)中, 称\(S\)\(H\)闭子空间,也称为子Hilbert空间。

\(S\)\(H\)的闭子空间。 若\(\forall \boldsymbol z \in S\)都有\(\boldsymbol x \perp \boldsymbol z\), 称\(\boldsymbol x\)\(S\)正交, 记作\(\boldsymbol x \perp S\)

记所有与\(S\)正交的元素组成集合为\(S^\perp\), 这也是\(H\)的闭子空间,称为\(S\)正交补空间\(\boldsymbol x \perp S\)当且仅当\(\boldsymbol x \in S^\perp\)

定理B.13 (投影存在性) \(H\)为Hilbert空间, \(S\)\(H\)的子Hilbert空间。

(1) 对\(\forall \boldsymbol y \in H\), 存在唯一的\(\boldsymbol x \in S\), 使得 \[ \| \boldsymbol y - \boldsymbol x \| = \inf_{\boldsymbol z \in S} \| \boldsymbol y - \boldsymbol z \| \]\(\boldsymbol x\)\(\boldsymbol y\)在闭子空间\(S\)上的投影, 记作\(\mathop{\mathrm{Proj}}_{S} \boldsymbol y\)

(2) 对\(\forall \boldsymbol y \in H\)\(\boldsymbol x \in S\)\(\boldsymbol y\)\(S\)上的投影当且仅当\(\boldsymbol y - \boldsymbol x \perp S\)

证明: (1) \(d = \inf_{\boldsymbol z \in S} \| \boldsymbol y - \boldsymbol z \|\)必存在且\(d \geq 0\)。 存\(\{ \boldsymbol z_n \} \subset S\)使得\(\| \boldsymbol z_n - \boldsymbol y \| \to d\)(\(n\to\infty\))。 来证明\(\{ \boldsymbol z_n \}\)是基本列。 利用恒等式 \[ \| \boldsymbol x - \boldsymbol y \|^2 + \| \boldsymbol x + \boldsymbol y \|^2 = 2 \| \boldsymbol x \|^2 + 2 \| \boldsymbol y \|^2 \] 可得 \[\begin{aligned} \| \boldsymbol z_n - \boldsymbol z_m \|^2 =& \| (\boldsymbol z_n - \boldsymbol y) - (\boldsymbol z_m - \boldsymbol y) \|^2 \\ =& - \| \boldsymbol z_n + \boldsymbol z_m - 2 \boldsymbol y \|^2 + 2 \| \boldsymbol z_n - \boldsymbol y \|^2 + 2 \| \boldsymbol z_m - \boldsymbol y \|^2 \\ =& -4 \| \frac{\boldsymbol z_n + z_m}{2} - \boldsymbol y \|^2 + 2 \| \boldsymbol z_n - \boldsymbol y \|^2 + 2 \| \boldsymbol z_m - \boldsymbol y \|^2 \\ \leq& -4d + 2 \| \boldsymbol z_n - \boldsymbol y \|^2 + 2 \| \boldsymbol z_m - \boldsymbol y \|^2 \\ \to& 0 \ (n, m \to \infty) \end{aligned}\]

所以\(\{ \boldsymbol z_n \}\)是基本列, 存在\(\boldsymbol x \in H\)使得\(\| \boldsymbol z_n - \boldsymbol x \| \to 0\)。 因为\(S\)是闭子空间所以\(\boldsymbol x \in S\)。由内积的连续性可得 \[ \| \boldsymbol y - \boldsymbol x \| = \lim_{n\to\infty} \| \boldsymbol y - \boldsymbol z_n \| = d \]

再来证明唯一性。 如果有\(\boldsymbol x' \in S\)使得\(\| \boldsymbol y - \boldsymbol x \| = d\), 则 \[\begin{aligned} 0 \leq& \| \boldsymbol x - \boldsymbol x' \|^2 \\ =& \| (\boldsymbol x - \boldsymbol y) - (\boldsymbol x' - \boldsymbol y) \|^2 \\ =& - \| \boldsymbol x + \boldsymbol x' - 2 \boldsymbol y \|^2 + 2 \| \boldsymbol x - \boldsymbol y \|^2 + 2 \| \boldsymbol x' - \boldsymbol y \|^2 \\ =& -4 \| \frac{\boldsymbol x + \boldsymbol x'}{2} - \boldsymbol y \|^2 + 2 \| \boldsymbol x - \boldsymbol y \|^2 + 2 \| \boldsymbol x' - \boldsymbol y \|^2 \\ \leq& -4d + 2d + 2d = 0 \end{aligned}\]\(\boldsymbol x' = \boldsymbol x\)

(2) 先证明充分性。 设\(\boldsymbol x \in S\)使得\(\boldsymbol y - \boldsymbol x \perp S\), 则\(\forall z \in S\), 有 \[\begin{aligned} \| \boldsymbol y - \boldsymbol z \|^2 =& \| (\boldsymbol y - \boldsymbol x) + (\boldsymbol x - \boldsymbol z) \|^2 \\ =& \| \boldsymbol y - \boldsymbol x \|^2 + \| \boldsymbol x - \boldsymbol z \|^2 + 2 < \boldsymbol y - \boldsymbol x, \boldsymbol x - \boldsymbol z > \\ =& \| \boldsymbol y - \boldsymbol x \|^2 + \| \boldsymbol x - \boldsymbol z \|^2 \\ \geq& \| \boldsymbol y - \boldsymbol x \|^2 \end{aligned}\] 所以\(\boldsymbol x\)\(\boldsymbol y\)\(S\)的投影。

再来证明必要性。用反证法。 设\(\boldsymbol x \in S\)使得 \[ \| \boldsymbol y - \boldsymbol x \| = \inf_{\boldsymbol z \in S} \| \boldsymbol y - \boldsymbol z \| \] 如果\(\boldsymbol y - \boldsymbol x \perp S\)不成立, 则存在\(\boldsymbol z' \in S\)使得\(a = <\boldsymbol y - \boldsymbol x, \boldsymbol z'> \neq 0\), 显然\(\boldsymbol z' \neq 0\)。 令 \[ \boldsymbol x' = \boldsymbol x + \frac{a}{\| \boldsymbol z' \|^2} \boldsymbol z \]\(\boldsymbol x' \in S\),且 \[\begin{aligned} \| \boldsymbol y - \boldsymbol x' \|^2 =& \| (\boldsymbol y - \boldsymbol x) + (\boldsymbol x - \boldsymbol x') \|^2 \\ =& \| (\boldsymbol y - \boldsymbol x) - \frac{a}{\| \boldsymbol z' \|^2} \boldsymbol z' \|^2 \\ =& \| \boldsymbol y - \boldsymbol x \|^2 + \frac{a^2}{\| \boldsymbol z' \|^4} \| \boldsymbol z' \|^2 - \frac{2 a}{\| \boldsymbol z' \|^2} <\boldsymbol y - \boldsymbol x, \boldsymbol z'> \\ =& \| \boldsymbol y - \boldsymbol x \|^2 - \frac{a^2}{\| \boldsymbol z' \|^2} \\ <& \| \boldsymbol y - \boldsymbol x \|^2 \end{aligned}\] 矛盾。定理证毕。

○○○○○○

定理说明, 如果需要用闭子空间\(S\)上的元素\(\boldsymbol x\)最优地逼近\(\boldsymbol y \in H\)\(\boldsymbol x = \mathop{\mathrm Proj}_{S} \boldsymbol y\)是这个问题的唯一的解。 这里“最优逼近”是用\(\| \boldsymbol x - \boldsymbol y \|\)作为两个元素的距离时距离最小的近似。 最优逼近\(\boldsymbol x\)的条件也可以写成 \[ <\boldsymbol y - \boldsymbol x, \boldsymbol z> = 0, \ \forall \boldsymbol z \in S \]

对Hilbert空间\(H\)和闭子空间\(S\)\(\mathop{\mathrm Proj}_{S}\)是从\(H\)\(S\)的一个线性映射。 记\(I\)\(H\)上的恒等映射, 则\(\forall \boldsymbol y \in H\), \[ \| \boldsymbol y \|^2 = \| \mathop{\mathrm{Proj}}_{S} \boldsymbol y \|^2 + \| (I - \mathop{\mathrm{Proj}}_{S}) \boldsymbol y \|^2 \] 其中\((I - \mathop{\mathrm{Proj}}_{S}) \boldsymbol y = \boldsymbol y - \mathop{\mathrm{Proj}}_{S} \boldsymbol y\)。 且存在唯一的分解 \[ \boldsymbol y = \boldsymbol y_1 + \boldsymbol y_2 = \mathop{\mathrm{Proj}}_{S} \boldsymbol y + (I - \mathop{\mathrm{Proj}}_{S}) \boldsymbol y \] 其中\(\boldsymbol y_1 \in S\), \(\boldsymbol y_2 \in S^\perp\)。 显然\(\boldsymbol y_1 = \mathop{\mathrm{Proj}}_{S} \boldsymbol y\)\(\boldsymbol y_2 = (I - \mathop{\mathrm{Proj}}_{S}) \boldsymbol y\)满足分解; 如果还有\(\boldsymbol x_1 \in S\)\(\boldsymbol x_2 \in S^\perp\) 满足\(\boldsymbol y = \boldsymbol x_1 + \boldsymbol x_2\), 则有 \[ [\boldsymbol x_1 - \mathop{\mathrm{Proj}}_{S} \boldsymbol y] + [\boldsymbol x_2 - (I - \mathop{\mathrm{Proj}}_{S}) \boldsymbol y] = 0 \] 两边与\(\boldsymbol x_1 - \mathop{\mathrm{Proj}}_{S} \boldsymbol y\)作内积得 \[ \| \boldsymbol x_1 - \mathop{\mathrm{Proj}}_{S} \boldsymbol y \|^2 + 0 = 0 \] 所以\(\boldsymbol x_1 = \mathop{\mathrm{Proj}}_{S} \boldsymbol y\), 即分解式唯一。 记这样的分解为 \[ \boldsymbol y = \boldsymbol y_1 \oplus \boldsymbol y_2, \ \boldsymbol y_1 \in S, \boldsymbol y_2 \in S^\perp \]

映射\(\mathop{\mathrm{Proj}}_{S}\)有连续性: 如果\(\| \boldsymbol y_n - \boldsymbol y \| \to 0\), 则\(\| \mathop{\mathrm{Proj}}_{S} \boldsymbol y_n - \mathop{\mathrm{Proj}}_{S} \boldsymbol y\| \to 0\)。 事实上, \[\begin{aligned} & \| \mathop{\mathrm{Proj}}_{S} \boldsymbol y_n - \mathop{\mathrm{Proj}}_{S} \boldsymbol y\|^2 = \| \mathop{\mathrm{Proj}}_{S} (\boldsymbol y_n - \boldsymbol y) \|^2 \\ =& \| \boldsymbol y_n - \boldsymbol y \|^2 - \| (I - \mathop{\mathrm{Proj}}_{S}) (\boldsymbol y_n - \boldsymbol y) \|^2 \\ \leq& \| \boldsymbol y_n - \boldsymbol y \|^2 \to 0 \end{aligned}\]

\(\boldsymbol y \in S\)当且仅当\(\mathop{\mathrm{Proj}}_{S} \boldsymbol y = \boldsymbol y\)

\(\boldsymbol y \in S^\perp\)当且仅当\(\mathop{\mathrm{Proj}}_{S} \boldsymbol y = \boldsymbol 0\)

\(S\)为闭子空间\(M\)的闭子空间, 则当\(\boldsymbol y \in M\)\(\mathop{\mathrm{Proj}}_{S} \boldsymbol y \in S \subset M\)\(\mathop{\mathrm{Proj}}_{S} \boldsymbol y \in M\), 同时\((I - \mathop{\mathrm{Proj}}_{S}) \boldsymbol y = \boldsymbol y - \mathop{\mathrm{Proj}}_{S} \boldsymbol y \in M\)。 对一般的\(\boldsymbol y \in H\),有 \[ \mathop{\mathrm{Proj}}_{S} \boldsymbol y = \mathop{\mathrm{Proj}}_{S} \mathop{\mathrm{Proj}}_{M} \boldsymbol y \]

○○○○○○

References

Brockwell, P. J., and R. A. Davis. 1987. Time Series: Theory and Methods. Springer-Verlag.