1 预备知识

1.1 概率空间

随机试验是概率论的基本概念, 试验的结果事先不能准确地预言, 但具有如下三个特性:

(1)可以在相同的条件下重复进行;

(2)每次试验的结果不止一个, 但预先知道试验的所有可能的结果;

(3)每次试验前不能确定哪个结果会出现.

  • 样本点\((\omega)\):随机试验的基本结果;
  • 样本空间\((\Omega)\):随机试验所有可能结果组成的集合;
  • 基本事件:\(\Omega\)中的样本点\(\omega\)
  • 必然事件:样本空间\(\Omega\)
  • 不可能事件:空集\(\emptyset\)
  • 事件:由基本事件组成的\(\Omega\)中的子集\(A\)

定义1.1 \(\Omega\)是一个样本空间(或任意一个非空集合), \({\mathscr F}\)\(\Omega\)的某些子集组成的集合族, 满足: \[\begin{aligned} (1)\ & \Omega\in {\mathscr F}; \\ (2)\ & \text{若} A\in {\mathscr F}, \text{则} A^c=\Omega \setminus A\in {\mathscr F}; \\ (3)\ & \text{若} A_n \in {\mathscr F}, n=1,2, \dots, \text{则} \bigcup_{n=1}^{\infty} A_n \in {\mathscr F}. \end{aligned}\] 则称\({\mathscr F}\)\(\sigma\)代数. \((\Omega, {\mathscr F})\)称为可测空间\({\mathscr F}\)中的元素称为随机事件,简称事件.

\(\sigma\)代数\({\mathscr F}\)的性质: \[\begin{aligned} (1)\ & \Omega \in {\mathscr F}, \ \emptyset \in {\mathscr F}; \\ (2)\ & \text{对求余运算封闭}; \\ (3)\ & \text{对有限并和可列并封闭}; \\ (4)\ & \text{对有限交和可列交封闭}; \\ (5)\ & \text{对减法封闭}. \end{aligned}\]

\(\Omega\)的某些子集为元素的集合称为(\(\Omega\)上的)集类. 对于\(\Omega\)上的任一非空集类\(\mathcal {C}\), 存在包含\(\mathcal {C}\)的最小\(\sigma\)代数, 即 \[ \bigcap \{\mathscr {H} | \mathscr {H} \text{为包含}\mathcal{C}\text{的} \sigma \text{代数}\} , \] 称为由\(\mathcal {C}\)生成的\(\sigma\)代数, 记为\(\sigma(\mathcal {C})\).

例1.1 \(\mathscr G\)\(\sigma\)代数, 则\(\{ \Omega, \emptyset \} \subset \mathscr G\)

\(\{ \Omega, \emptyset \}\)也是一个\(\sigma\)代数.

例1.2 \(A \subset \Omega\)\(A \neq \Omega\), \(A \neq \emptyset\)。 构造一个\(\sigma\)代数。

\(\sigma(\{A\}) = \{ \Omega, \emptyset, A, A^c \}\)。 这代表了与事件\(A\)有关的四种情况: 一定发生, 一定不发生, \(A\)发生, \(A\)不发生。

比如,设概率空间\(\Omega\)为掷一次骰子的结果, 则 \[ \Omega = \{ 1, 2, 3, 4, 5, 6 \} . \]\(A\)表示“掷出偶数点”, 则 \[ \sigma(\{ A \}) = \{ \Omega, \emptyset, \{2,4,6\}, \{1,3,5 \} \} . \]

\(\sigma\)代数表示一个信息集合, 知道了上述的\(\sigma(\{ A \})\), 就能够知道掷出的点数是偶数还是奇数。

○○○○○○

定义1.2 \(\Omega={\mathbb R}\). 由所有半无限区间\((-\infty, x]\)生成的\(\sigma\)代数(即包含集族\(\{(-\infty, x], x \in {\mathbb R}\}\)的最小\(\sigma\)代数)称为\({\mathbb R}\)上的Borel \(\sigma\)代数, 记为\({\mathscr B}({\mathbb R})\), 其中的元素称为Borel集合.

类似地, 可定义\({\mathbb R}^n\)上的Borel \(\sigma\)代数\({\mathscr B}({\mathbb R}^n)\), 如 \[ {\mathscr B}({\mathbb R}^n) = \sigma(\{ (-\infty, x_1] \times \dots \times (-\infty, x_n]: (x_1, \dots, x_n) \in \mathbb R^n \}) . \]

定义1.3 \(\{A_n, n \geq 1\}\)为一集合序列. 令 \[\begin{aligned} \limsup_{n \to \infty} A_n =& \bigcap_{n=1}^{\infty} \bigcup_{k=n}^{\infty} A_k; \\ \liminf_{n \to \infty} A_n =& \bigcup_{n=1}^{\infty} \bigcap_{k=n}^{\infty} A_k , \end{aligned}\] 分别称其为\(\{A_n\}\)上极限下极限。 上极限有时也记为\(\{A_n, \text{i.o.}\}\)

显然有 \[\begin{aligned} \limsup_{n \to \infty} A_n =& \{ \omega | \omega \text{属于无穷多个} A_n \} \\ =& \{ \omega | \forall n \in \mathbb{N}, \exists k \geq n, \text{使} \omega \in A_k \} ; \\ \liminf_{n \to \infty} A_n =& \{ \omega | \omega \text{至多不属于有限多个} A_n \} \\ =& \{ \omega | \exists n \in \mathbb{N}, \forall k \geq n, \text{有} \omega \in A_k \} . \end{aligned}\] 显然\(\liminf_{n \to \infty} A_n\)的条件更严格, 而\(\limsup_{n \to \infty} A_n\)的条件更宽松, 有 \[ \liminf_{n \to \infty} A_n \subset \limsup_{n \to \infty} A_n. \]

定义1.4 \(\{A_n, n \geq 1\}\)为一集合序列, 且\(\liminf_{n \to \infty} A_n = \limsup_{n \to \infty} A_n\), 则称 \(\{A_n\}\)的极限存在, 并用\(\lim_{n \to \infty} A_n\)表示, 即令 \[ \lim_{n \to \infty} A_n = \liminf_{n \to \infty} A_n =\limsup_{n \to \infty} A_n. \] 特别地, 若对每个\(n\),有\(A_n \subset A_{n+1}\), 则称\(\{A_n\}\)为单调增的(或单调不减的); 若每个\(n\),有\(A_n \supset A_{n+1}\), 则称\(\{A_n\}\)为单调降的(或单调不增的). 对单调增序列\(\{A_n\}\), 令\(A = \bigcup_{n=1}^{\infty} {A_n}\), 称\(A\)\(\{A_n\}\)的极限, 通常记为\(A_n \uparrow A\); 对单调降序列\(\{A_n\}\), 令\(A = \bigcap_{n=1}^{\infty} {A_n}\), 称\(A\)\(\{A_n\}\)的极限, 记作\(A_n \downarrow A\).

例1.3 设有某人在反复地投掷硬币, 观察硬币朝上的面是正面或反面. \(\Omega = \{\text{所有由投掷结果正面和反面组成的序列}\}\), \({\mathscr F} = \Omega \text{的所有子集}\), 记\(A_n\)为第\(n\)次投掷的是“正面”的事件,则 \[\begin{aligned} \limsup_{n \to \infty} A_n =& \{ \text{有无限多个投掷结果是正面} \}; \\ \liminf_{n \to \infty} A_n =& \{\text{除有限多个外,投掷结果都是正面} \} . \end{aligned}\]

称事件\(A, B\) 互不相容, 若\(A \cap B = \emptyset\)

定义1.5 \((\Omega, {\mathscr F})\)是可测空间, \(P(\cdot)\)是定义在\({\mathscr F}\)上的实值函数,满足 \[\begin{aligned} (1)\ & P(\Omega)=1 ; \\ (2)\ & \forall A \in {\mathscr F}, \ 0 \leq P(A) \leq 1 ; \\ (3)\ & \text{对两两互不相容事件}A_1, A_2, \dots, \text{有} \\ & P(\bigcup_{i=1}^{\infty} A_i) = \sum_{i=1}^{\infty} P(A_i) . \end{aligned}\] 则称\(P\)\((\Omega, {\mathscr F})\)上的概率(或概率测度), \((\Omega, {\mathscr F}, P)\)称为概率空间\(\mathcal {F}\)中的元素称为事件\(P(A)\)称为事件\(A\)的概率.

概率有如下性质: \[\begin{aligned} (1)\ & \text{若} A, B \in {\mathscr F}, \text{ 则} \\ & P(A \cup B) = P(A) + P(B) - P(A \cap B) . \\ (2)\ & \text{可减性:若} A, B\in {\mathscr F}, \text{ 且} A \subset B, \text{ 则} P(B-A)=P(B)-P(A).\\ (3)\ & \text{单调性:若}A, B\in {\mathscr F}, \text{ 且} A \subset B, \text{ 则} P(A) \leq P(B). \\ (4)\ & \text{次可加性:若} A_n \in {\mathscr F}, n \geq 1,\text{ 则} \\ & P(\bigcup_{n=1}^\infty A_n) \leq \sum_{n=1}^\infty P(A_n) . \\ (5)\ & \text{从下连续:若} A_n \in {\mathscr {F}} \text{ 且} A_n \uparrow A \in \mathscr{F},\text{ 则} \\ & P(A) = P(\bigcup_{n=1}^\infty A_n) = P(\lim_{n \to \infty} A_n) = \lim_{n \to \infty} P(A_n); \\ (6)\ & \text{从上连续:若} A_n \in {\mathscr {F}} \text{ 且} A_n \downarrow A \in \mathscr{F},\text{ 则} \\ & P(A) = P(\bigcap_{n=1}^\infty A_n) = P(\lim_{n \to \infty} A_n) = \lim_{n \to \infty} P(A_n) . \end{aligned}\]

概率测度是测度的特例。 如果集合函数\(\mu: \mathscr F \to \mathbb R\)满足概率测度的条件但不要求\(P(\Omega)=1\), 则称\(\mu(\cdot)\)为可测空间\((\Omega, \mathscr F)\)上的一个测度

最常用的测度是Borel测度。 对区间\((a, b]\), 定义\(\mu((a,b]) = b - a\), 这个集合函数\(\mu(\cdot)\)可以推广到Borel σ代数上定义, 就是长度的概念的推广。

如果概率空间\((\Omega, {\mathscr F}, P)\)\(P\)零测集(即零概率事件)的每个子集仍为事件, 则称之为完备的概率空间. 为了避免\(P\)零测集的子集不是事件的情形出现, 我们把概率测度完备化. 令\({\mathcal N}\)代表\(\Omega\)的所有\(P\)零测集的子集的全体, 由\(\{ {\mathscr F},{\mathcal N}\}\)生成的\(\sigma\)代数 (即包含\({\mathscr F}\)\({\mathcal N}\)的最小\(\sigma\)代数)称为\({\mathscr F}\)完备化, 记为\(\overline{\mathscr F}\). \(\overline{\mathscr F}\)中的每个集合\(B\)都可以表为\(B=A \cup N\), 其中\(A \in {\mathscr F}\), \(N \in {\mathcal N}\), 且\(A \cap N = \emptyset\). 定义 \[ \bar{P}(B) = \bar{P}(A \cup N) = P(A) . \]\(P\)就被扩张到\(\overline{\mathscr F}\)上.

容易验证,\(\bar{P}\)\(\overline{\mathscr F}\)上的概率测度, 集函数\(\bar{P}\)称为\(P\)的完备化. 本书总假定\(P\)是完备的概率测度.

1.2 随机变量与分布函数

1.2.1 随机变量

定义1.6 \((\Omega, {\mathscr F}, P)\)是(完备的)概率空间, \(X\)是定义在\(\Omega\)上取值于实数集 \({\mathbb R}\)的函数, 如果对任意实数\(x\in {\mathbb R}\), \(\{\omega : X(\omega) \leq x\} \in {\mathscr F}\), 则称\(X(\omega)\)\({\mathscr F}\)上的随机变量, 简称为随机变量. \[ F(x) = P(\omega : X(\omega) \leq x), \ -\infty < x < \infty \] 称为随机变量\(X\)分布函数.

如果存在函数\(f(x)\), 满足 \[ F(x) = \int_{-\infty}^x f(t) \,dt , \] 则称\(f(x)\)为随机变量\(X\)或其分布函数\(F(x)\)分布密度. 如果\(X\)具有分布密度, 则称\(X\)连续型随机变量; 如果\(X\)最多以正概率取可数多个值, 则称\(X\)离散型随机变量.

定义1.7 两个随机变量\(X\)\(Y\), 如果满足\(P(\omega \in \Omega: X(\omega) \neq Y(\omega)) = 0\), 则称它们是等价的.

对于两个等价的随机变量,我们视为同一个.

定理1.1 下列命题等价: \[\begin{aligned} (1)\ & X \text{是随机变量}; \\ (2)\ & \{\omega: X(\omega) \geq x \} \in {\mathscr F}, \ \forall x \in {\mathbb R}; \\ (3)\ & \{\omega: X(\omega) > x \} \in {\mathscr F}, \ \forall x \in {\mathbb R}; \\ (4)\ & \{\omega: X(\omega) < x \} \in {\mathscr F}, \ \forall x \in {\mathbb R} . \end{aligned}\]

证明略。

注:习惯上将\(\{\omega : X(\omega) \geq x \}\)记为\(\{X \geq x \}\).

例1.4 设事件\(A \in \mathscr F\), 令 \[ I_A(\omega) = \begin{cases} 1, & \text{若} \omega \in A, \\ 0, & \text{若} \omega \notin A, \end{cases} \]\(I_A(\omega)\)是随机变量,简记为\(I_A\)\(I[A]\), 称为\(A\)示性函数

证明: 对\(x < 0\), \(\{ I_A \leq x \} = \emptyset \in \mathscr F\); 对\(0 \leq x < 1\), \(\{ I_A \leq x \} = \{ I_A = 0 \} = A^c \in \mathscr F\); 对\(x \geq 1\), \(\{ I_A \leq x \} = \Omega \in \mathscr F\).

○○○○○○

对随机变量\(X\), 令 \[ \sigma(X) = \sigma(\{ X^{-1}((-\infty, x]), \ x \in \mathbb R \}) = \sigma(\{ \{\omega: X(\omega) \leq x \}:\ x \in \mathbb R \}) , \] 称为由\(X\)生成的\(\sigma\)代数, 可以理解为观测到\(X\)后所能获得的信息, 即对\(\forall A \in \sigma(X)\), 在观测到\(X\)的值后都可以确定\(A\)是否发生。

\(\sigma(X)\)的一个等价定义是 \[ \sigma(X) = \{ X^{-1}(B): B \in \mathscr B(\mathbb R) \}, \] 其中\(X^{-1}(B) = \{\omega: X(\omega) \in B\}\)\(\Omega \to \mathbb R\)的函数\(X\)\(\mathscr F\)随机变量, 当且仅当\(\sigma(X) \subset \mathscr F\)

分布函数\(F(x)\)具有如下性质:

(1) 单调增、右连续;

(2) \(\lim_{x \to -\infty} F(x) = 0\), \(\lim_{x \to \infty} F(x) = 1\) .

满足上述性质的函数\(F(x)\)称为分布函数, 必存在概率空间\((\Omega, \mathscr F, P)\)以及其中的随机变量\(X\)使得\(X\)\(F(x)\)为分布函数。 事实上,取\(\Omega = \mathbb R\), \(\mathscr F = \mathscr B(\mathbb R)\)\(P((-\infty, x]) = F(x)\), 则对\(\omega \in \mathbb R\)定义\(X(\omega) = \omega\)即可。 所以, 任何一个分布函数\(F(x)\)都定义了\((\mathbb R, \mathscr B(\mathbb R))\)上的一个概率测度\(\mu_F(\cdot)\),满足 \[ \mu_F((-\infty, b]) = F(b), \quad \mu_F((a, b]) = F(b) - F(a) . \]

例1.5 \(A \in \mathscr F\), 考虑\(X = I_A\), 易见 \[ \sigma(X) = \sigma(\{ \emptyset, A, \Omega \}) = \{ \emptyset, A, \Omega, A^c \} = \sigma(\{ A \}), \] 所以\(\sigma(I_A) = \sigma(\{A\})\)包含了所有的关于\(A\)是否发生的信息, 观测到\(I_A\)的值就可以确定事件\(A\)是否发生。

1.2.2 随机向量

定义1.8 \(X_1, \dots, X_n\)\(\mathscr F\)随机变量, 称\(\boldsymbol X = (X_1, \dots, X_n)\)随机向量

定义 \[ \sigma(\boldsymbol X) = \sigma(X_1, \dots, X_n) = \sigma(\{ X_i^{-1}((-\infty, x]): x \in \mathbb R, i=1,\dots, n \}) . \]\(\sigma(X_1, \dots, X_n)\)表示观测到\(X_1, \dots, X_n\)以后能够确定是否发生的所有事件的集合, 或简单理解为知道\(X_1, \dots, X_n\)的值所能获得的信息。

随机向量\(\boldsymbol X\)也可以看成是\(\Omega\)\(\mathbb R^n\)的函数, 有 \[ \sigma(\boldsymbol X) = \sigma(\{\boldsymbol X^{-1}(B): B \in \mathscr B(\mathbb R^n) \}) . \]

\(X\)\(Y\)是两个随机变量, 令\(Z = X + i Y\)(其中\(i\)是虚数单位), 称\(Z\)复值随机变量, 也可以看成是\(\Omega\)到复数域\(\mathbb C\)的可测映射。

定理1.2 (1) 若\(X, Y\)是随机变量,则\(\{X<Y\}\), \(\{X \leq Y\}\), \(\{X=Y\}\)\(\{X \neq Y\}\)都属于\({\mathscr F}\)

(2) 若\(X, Y\)是随机变量,则\(X \pm Y\)\(XY\)亦然;

(3) 若\(\{X_n\}\)是随机变量序列, 则\(\sup_n X_n\), \(\inf_n X_n\), \(\limsup_{n \to \infty} X_n\)\(\liminf_{n \to \infty} X_n\)都是随机变量.

对于随机向量\(\boldsymbol X=(X_1, \dots, X_n)\), 定义它的(联合)分布函数定义为 \[ F(x_1, \dots, x_n) = P(X_1 \leq x_1, \dots, X_n \leq x_n) . \]

定理1.3 \(F(x_1, \dots, x_n)\)是联合分布函数,则

(1) \(F(x_1,\dots,x_n)\)对每个变量都是单调的;

(2) \(F(x_1, \dots, x_n)\)对每个变量都是右连续的;

(3) 对\(i=1,2,\dots,n\)\[\begin{aligned} & \lim_{x_i \to -\infty} F(x_1, \dots, x_i, \dots, x_n)=0, \\ & \lim_{x_1, x_2, \dots, x_n \to \infty} F(x_1, x_2, \dots, x_n) = 1. \end{aligned}\]

如果\(f(x_1, \dots, x_n) = \frac{\partial^n F}{\partial x_1 \dots \partial x_n}\)对所有的\((x_1, \dots, x_n) \in \mathbb R^n\)存在, 则称函数\(f(x_1, \dots, x_n)\)\(F(x_1, \dots, x_n)\)\(\boldsymbol X = (X_1, \dots, X_n)\)联合密度函数, 并且 \[ F(x_1, \dots, x_n) = \int_{-\infty}^{x_1} \cdots \int_{-\infty}^{x_n} f(t_1, \dots, t_n) \,dt_n \cdots dt_1 . \]

\(F(x_1, \dots, x_n)\)\(X_1, \dots, X_n\)的联合分布函数, \(1 \leq k_1 < \cdots < k_m \leq n\), 则\(X_1, \dots, X_m\)边缘分布\(F_{k_1, \dots, k_m}(x_{k_1}, \dots, x_{k_m})\)定义为 \[\begin{aligned} & F_{k_1, \dots, k_m}(x_{k_1}, \dots, x_{k_m}) \\ =& F(\infty, \dots, \infty, x_{k_1}, \infty, \dots, \infty, x_{k_2}, \infty, \dots, \infty, x_{k_m}, \infty, \dots, \infty) . \end{aligned}\]

1.2.3 常用分布

常用的两种类型随机变量:

(1) 离散型随机变量\(X\)的概率分布用分布列描述: \[ p_k = P(X=x_k), \quad k=1,2,\dots, \] 定义 \[ f(x_k) = p_k, k=1,2,\dots, \]\(f(\cdot)\)\(X\)的概率质量函数(PMF)。 其分布函数为 \[ F(x) = \sum_{x_k \leq x} p_k . \]

(2) 连续型随机变量\(X\)的概率分布用概率密度\(f(x)\)描述,其分布函数 \[ F(x) = \int_{-\infty}^x f(t) \,dt. \]

1.2.3.1 退化分布

若随机变量\(X\)只取常数\(c\),即 \[ P\{ X = c \} = 1, \]\(X\)并不随机, 但我们把它看作随机变量的退化情况更为方便, 因此称之为退化分布, 又称单点分布.

1.2.3.2 Bernoulli分布

在一次试验中, 设事件\(A\)出现的概率为\(p\), \(0 \leq p \leq 1\), 不出现的概率为\(1-p\), 称\(A\)出现为成功,不出现为失败,\(p\)为成功概率, 若以\(X\)记事件\(A\)出现(成功)的次数, 即\(X = I_A\), 则\(X\)的可能取值仅为\(0,1\), 其对应的概率为 \[ P\{ X = k \} = p^k (1-p)^{1-k}, \ k=0, 1. \]

1.2.3.3 二项分布

\(n\)重Bernoulli试验表示独立地重复进行\(n\)次Bernoulli试验, 设事件\(A\)在每次试验中出现(成功)的概率均为\(p\), \(0 \leq p \leq 1\), 以\(X\)记事件\(A\)出现(成功)的次数, \(X\)的可能取值为\(0,1,2,\dots,n\), 其对应的概率为 \[ P\{ X = k \} = \binom{n}{k} p^k (1-p)^{n-k}, \ k=0,1,\dots,n , \] 则称之为以\(n\)\(p\)为参数的二项分布, 简记为\(X \sim \text{B}(n,p)\).

其中\(\binom{n}{k}\)是从\(n\)个不同号码中选取\(k\)个的不同取法, 称为\(n\)\(k\)组合数, 计算公式为 \[ \binom{n}{k} = \frac{n!}{k!(n-k)!} . \]

1.2.3.4 泊松分布

若随机变量\(X\)可取一切非负整数值,且 \[ P\{ X = k \} = \frac{{\lambda}^k}{k!} e^{-\lambda}, \ k=0,1,\dots, \] 其中\(\lambda > 0\), 则称\(X\)服从参数为\(\lambda\)的泊松分布(Poisson分布), 记为\(X \sim \text{Pois}(\lambda)\).

1.2.3.5 几何分布

在独立重复的Bernoulli试验中, 设事件\(A\)在每次试验中出现的概率均为\(p\), \(0 < p< 1\), 以\(X\)记事件\(A\)首次出现(成功)时的试验次数, \(X\)的可能取值为\(0,1,2,\dots,\),其对应的概率分布为 \[ P\{ X = k \} = p (1-p)^{k-1},\ k = 1,2,\dots, \] 则称\(X\)服从几何分布.

1.2.3.6 Pascal分布

在独立重复的Bernoulli试验中, 设事件\(A\)在每次试验中出现的概率均为\(p\), \(0 < p< 1\), 以\(X\)记事件\(A\)\(r\)次出现(成功)时的试验次数, \(X\)的可能取值为\(r, r+1, \dots\), 其概率分布为 \[ P\{ X = k \} = \binom{k-1}{r-1} p^r (1-p)^{k-r},\ k=r,r+1,\dots, \]\(X\)服从Pascal分布.

1.2.3.7 负二项分布

在独立重复的Bernoulli试验中, 设事件\(A\)在每次试验中出现的概率均为\(p\), \(0 < p< 1\), 以\(X\)记事件\(A\)\(r\)次出现时已经失败的试验次数, 则\(X\)的可能取值为\(0, 1, \dots\), 其概率分布为 \[ P\{ X = k \} = \binom{k+r-1}{k} p^r (1-p)^{k},\ k=0,1,\dots, \]\(X\)服从负二项分布。 这时\(X + r\)服从Pascal分布。

负二项分布通常用于替换泊松分布. 同泊松分布一样, 它也在非负整数上取值, 但因为它包含两个参数, 相比泊松分布其变化更灵活. 泊松分布的方差和均值相等, 但负二项分布的方差大于均值, 这说明当某类数据集观测到的方差大于均值时, 负二项分布要比泊松分布更合适.

1.2.3.8 离散均匀分布

如果随机变量\(X\)的分布列为 \[ p_k = P(X=x_k) = \frac{1}{n},\ k=1,2,\dots,n, \]\(X\)服从\(\{x_1, \dots, x_n \}\)上的离散均匀分布.

1.2.3.9 均匀分布

如果随机变量\(X\)有如下密度函数: \[ f(x) = \begin{cases} \frac{1}{b-a}, & \mbox{若}\ a\leq x \leq b\\ 0, & \text{其他}, \end{cases} \] 其中\(a<b\),则称之为区间\([a,b]\)上的均匀分布, 记作\(X \sim \text{U}(a,b)\)

注意对连续型分布, 单个或者有限个点的密度函数值对于分布函数值没有影响, 所以区间\([a,b]\)是否包含左右端点不重要。

1.2.3.10 正态分布

如果\(X\)有如下密度函数: \[ f(x) = \frac{1}{\sqrt{2\pi} \sigma} \exp\{-\frac{1}{2} \frac{(x-\mu)^2}{\sigma^2} \}, \ x \in {\mathbb R}, \] 则称\(X\)服从为参数为\(\mu\)\(\sigma^2\)的正态分布, 也称为高斯分布, 记为\(X \sim \text{N}(\mu,\sigma^2)\).

\(\text{N}(0, 1)\)称为标准正态分布, 分布密度为 \[ \phi(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2} x^2}, \ x \in \mathbb R, \] 分布函数为\(\Phi(x) = \int_{-\infty}^x \phi(u) \,du\)

1.2.3.11 多元正态分布

\(\boldsymbol{\mu}=(\mu_1,\cdots,\mu_n)^T\)\(\Sigma\)\(n\)阶正定对称矩阵, 并且其行列式为\(|\Sigma|\). 如果随机向量\(\boldsymbol X\)有如下联合密度函数: \[ f(x_1, \dots, x_n) = \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}} \exp\left\{ -\frac{1}{2} (\boldsymbol{x}-\boldsymbol{\mu})^T \Sigma^{-1} (\boldsymbol{x}-\boldsymbol{\mu}) \right\}, \] 则称\(\boldsymbol X\)服从为\(n\)维(\(n\)元)正态分布, 记为\(X \sim \text{N}(\boldsymbol{\mu}, \Sigma)\)\(X \sim \text{N}_n(\boldsymbol{\mu}, \Sigma)\).

多元正态分布推广的定义和性质见节7.1.2

1.2.3.12 Gamma分布

如果\(X\)有如下密度函数: \[ f(x) = \begin{cases} \frac{{\lambda}^s}{\Gamma(s)} x^{s-1}e^{-\lambda x}, & x \geq 0 ,\\ 0, & x < 0, \end{cases} \] 则称\(X\)服从以\(s>0\)\(\lambda>0\)为参数的Gamma分布(伽马分布), 其中\(\Gamma\)函数定义为 \[ \Gamma(s) = \int_0^{\infty} x^{s-1} e^{-x} \,dx, \ s>0 . \]

1.2.3.13 指数分布

如果在Gamma分布中令\(s = 1\), 即密度函数为 \[ f(x) = \begin{cases} \lambda e^{-\lambda x}, & x \geq 0, \\ 0, & x < 0 , \end{cases} \] 则称\(X\)服从参数为\(\lambda\)的指数为指数分布, 记为\(X \sim \text{Exp}(\lambda)\)

\(X\)服从指数分布, 当且仅当 \[ P(X > x) = e^{-\lambda x}, \ \forall x > 0 . \]

1.2.3.14 卡方分布

如果在Gamma分布中取\(s=\frac{n}{2}\), \(n\)是正整数, \(\lambda =\frac{1}{2}\),即密度函数为 \[ f(x) = \frac{1}{2^{\frac{n}{2}} \Gamma(\frac{n}{2})} x^{\frac{n}{2}-1} e^{-\frac{x}{2}}, \ x > 0, \] 则称\(X\)服从自由度为\(n\)的卡方分布,记为\(X \sim \chi^2(n)\).

1.3 数字特征、矩母函数与特征函数

1.3.1 Riemann-Stieltjes积分

\(g(x)\), \(F(x)\)为有限区间\((a,b]\)上的实值函数, \(a=x_0<x_1<\dots<x_n=b\)\((a,b]\)的一个分割,令 \[ \Delta F(x_i) = F(x_i)-F(x_{i-1}), \ \xi_i \in [x_{i-1},x_i], 1 \leq i \leq n, \] \(\lambda=\max_{1\leq i \leq n}(x_i-x_{i-1}),\) 如果当\(\lambda \to 0\)时,极限 \[ \lim_{\lambda \to 0} \sum_{i=1}^n g(\xi_i) \Delta F(x_i) \] 存在, 且与分割的选择以及\(\xi_i \in [x_{i-1},x_i]\)的取法无关, 则称该极限值为函数\(g(x)\)关于\(F(x)\)\((a,b]\)上的Riemann-Stieltjes积分, 记为 \[ \int_a^b g(x)\,dF(x) = \lim_{\lambda \to 0} \sum_{i=1}^n g(\xi_i) \Delta F(x_i) . \]

\(F(x)=x\)时,Riemann-Stieltjes积分即为Riemann积分. Riemann-Stieltjes积分可以看成是求曲线\(g(x)\)下方的面积问题的推广, 用\(\Delta F(x_i) = F(x_i)-F(x_{i-1})\)作为小区间\((x_{k-1}, x_i]\)的广义长度, 以\(g(\xi_i)\)近似曲边梯形的高度, 用矩形面积近似曲边梯形面积。

关于Riemann-Stieltjes积分存在的条件, 这里不做更进一步的讨论, 只给出一个简单的充分条件: 若函数\(g(x)\)连续,\(F(x)\)单调, 则Riemann-Stieltjes积分存在. 本书中用到的\(g(x)\)为连续函数, \(F(x)\)为分布函数, 因此积分的存在性不成问题.

定义1.9 (有界变差函数) \(f(x)\)是定义在\([s, t]\)的实值函数, 作分割\(\Delta: s = t_0 < t_1 < \dots < t_n = t\), 记 \[ \nu_{\Delta} = \sum_{i=0}^{n-1} |f(t_{i+1}) - f(t_i)|, \]\[ \bigvee_{s}^t(f) = \sup \{\nu_{\Delta}: \Delta \text{为} [s,t] \text{的任意分割} \}, \] 并称其为\(f\)\([s,t]\)的全变差; 如果\(\bigvee_{s}^t(f) < \infty\), 则称\(f(x)\)\([s,t]\)上的有界变差函数, 记作\(f \in \text{BV}([s,t])\)

\(\text{BV}([s,t])\)构成一个线性空间。

有界变差函数可以写成两个增函数的差, 几乎处处可微。

闭区间上连续可微函数必为有界变差。

定理1.4 若对任意的\([a,b]\)上连续函数\(g(x)\), 关于\(F(x)\)都是在\([a,b]\) Riemann-Stieltjes可积的, 则\(F(x)\)\([a,b]\)上的有界变差函数。 反之,连续函数关于有界变差函数Riemann-Stieltjes可积的。

为了后面的需要,将积分推广到无限区间上: \[\begin{aligned} \int_a^{\infty} g(x) \,dF(x) =& \lim_{b \to +\infty} \int_a^b g(x)\,dF(x), \\ \int_{-\infty}^b g(x) \,dF(x) =& \lim_{a \to -\infty} \int_a^b g(x) \,dF(x), \\ \int_{-\infty}^{\infty} g(x) \,dF(x) =& \lim_{a\to -\infty, b \to +\infty} \int_a^b g(x)\, dF(x) . \end{aligned}\]

与Riemannan积分不同的是 \[ \int_{a-}^a dF(x) = \lim_{\delta \to 0+} \int_{a-\delta}^a \,dF(x) = F(a) - F(a-), \]\(F(x)\)\(x=a\)处有跳跃时, 上式的值等于\(F(x)\)\(a\)点的跳跃高度. 当\(F(x)\)是一个阶梯函数时, Riemann-Stieltjes积分成为一个级数, 即设\(F(x)\)\(x=x_i\)处有跳跃高度\(p_i\), \(i=1,2,\dots\),则 \[ \int_{-\infty}^{\infty} g(x) \,dF(x) =\sum_{i=1}^{\infty} g(x_i) p_i . \]

如果\(F(x)\)是分布函数, 对于离散型和连续型这两种常用情形,有 \[ \int_a^b g(x) \,dF(x) = \begin{cases} \sum_{i=1}^\infty g(x_i) f(x_i), & \text{离散情形}, \\ \int_a^b g(x) f(x) \,dx, & \text{连续情形} . \end{cases} \] 其中\(f(\cdot)\)\(F(x)\)的概率质量函数或者概率密度函数。

Riemann-Stieltjes积分的一些基本性质:

(1) 线性性质: \[ \int_a^b [\alpha g_1(x) + \beta g_2(x)] \,dF(x) = \alpha \int_a^b g_1(x) \,dF(x) + \beta \int_a^b g_2(x) \, dF(x) . \]

(2) 区间可加性: \[ \int_a^b g(x) \,dF(x) = \int_a^c g(x) \,dF(x) + \int_c^b g(x) \,dF(x), \ c \in (a, b) . \]

(3) 广义长度: \[ \int_a^b dF(x) = F(b) - F(a), \] 其中\(a,b\)均可为有限数或无穷大.

(4) 测度可加性: \[ \int_a^b g(x) d[\alpha F_1(x) + \beta F_2(x)] = \alpha \int_a^b g(x)dF_1(x) + \beta \int^b_a g(x)dF_2(x) . \]

(5) 若\(g(x) \geq 0\)\(F(x)\)单调不减, \(b>a\), 则\(\int_a^b g(x) \,dF(x) \geq 0.\)

1.3.2 数字特征

定义1.10 \(X, Y\)为随机变量。

(1) 设\(X\)的分布函数为\(F(x)\),若 \[ E(X) = \int_{-\infty}^\infty x \,dF(x) \] 存在,称\(E(X)\)为随机变量\(X\)的数学期望。 \(E|X|\)总存在,等于有限值或\(+\infty\); 当\(E|X|<\infty\)\(E(X)\)必存在且为有限值, 这时称\(X\)一阶矩有限。 当\(E|X|=+\infty\)\(\int_0^\infty x \,dF(x) < \infty\)\(\int_{-\infty}^0 |x| \,dF(x) < \infty\)之一成立时, \(E(X)\)也有定义。 如果\(\int_0^\infty x \,dF(x) = \int_{-\infty}^0 |x| \,dF(x) = +\infty\), 称\(E(X)\)不存在。

\(X\)为离散型随机变量时, 设概率分布列为\(P(X=x_k) = p_k\), \(k=1,2,\dots\),则 \[ E(X) = \sum_{k=1}^\infty x_k p_k = \sum_{k=1}^\infty x_k P(X=x_k) . \] (若上述级数收敛)。

\(X\)为密度\(f(x)\)的连续性随机变量时, \[ E(X) = \int_{-\infty}^\infty x f(x) \,dx . \] (若上述积分存在)。

(2) 对正整数\(k\), 称\(m_k=E(X^k)\)\(X\)\(k\)原点矩. 数学期望是一阶原点矩.

(3) 设\(X\)为随机变量, 若\(E\{[X-E(X)]^2\}\)存在, 则称\(E\{[X-E(X)]^2\}\)\(X\)的方差, 记为\(\text{Var}(X)\),即 \[ \text{Var}(X) = \int_{-\infty}^{\infty} [x-E(X)]^2 \,dF(x) . \]

(4) 对正整数\(k\), 称\(c_k=E\{[X-E(X)]^k\}\)\(X\)\(k\)中心矩. 方差是二阶中心矩。

(5) 若\(E\{[X-E(X)][Y-E(Y)]\}\)存在, 则称之为\(X\)\(Y\)的协方差, 记为\(\text{Cov}(X,Y)\), 可知 \[ \text{Cov(X,Y)} = E\{[X-E(X)][Y-E(Y)]\} =E(XY) - E(X)E(Y) . \] (6) 对正整数\(k,l\), 称\(E\{[X-E(X)]^k [Y-E(Y)]^l\}\)\(X, Y\)\(k+l\)混合中心矩. 协方差是二阶混合中心矩.

数学期望的性质: 设\(X, Y\)为随机变量,期望存在有限, \(a, b\)为实数。

\[\begin{aligned} (1)\ & E(X) \text{存在有限} \iff E|X| < \infty; \\ (2)\ & \text{线性:} \\ & E[a X + b Y] = a E(X) + b E(Y) . \\ (3)\ & \text{若} X \geq 0, \text{ a.s.}, \text{则} \\ & E(X) \geq 0 . \\ (4)\ & \text{若} X \leq Y, \text{则} \\ & E(X) \leq E(Y) . \end{aligned}\]

方差的性质:

\[\begin{aligned} (1)\ & \text{Var}(X) = E(X^2) - [E(X)]^2 . \\ (2)\ & \text{Var}(a + bX) = b^2 \text{Var}(X) . \\ (3)\ & \text{Var}\left(\sum_{i=1}^n X_i \right) = \sum_{i=1}^n \text{Var}(X_i) + 2 \sum_{i<j} \text{Cov}(X_i, X_j) . \end{aligned}\]

定理1.5 \(X\)为随机变量, 分布函数为\(F(x)\), 函数\(g\)\(X\)的值域到\(\mathbb R\)的(可测)变换, 满足\(\int_{-\infty}^\infty |g(x)| \,dF(x) < \infty\), 则\(E[g(X)]\)存在有限且 \[ E[g(X)] = \int_{-\infty}^\infty g(x) \,dF(x) . \] 对离散分布的\(X\)\[ E[g(X)] = \sum_{k=1}^\infty g(x_k) P(X=x_k) . \] 对连续分布的\(X\)\[ E[g(X)] = \int_{-\infty}^\infty g(x) f(x) \,dx . \]

证明略。 参见(Shreve 2004)定理1.5.1。

例1.6 \(X\)服从标准均匀分布U\([0,1]\), 求\(E(X^4)\)

\[ E(X^4) = \int_0^1 x^4 \,dx = \frac{1}{5} . \]

○○○○○○

对定义在开区间\(I\)上的实值函数\(\phi(x)\), 如果\(\forall x, y \in I\), \(0 < \alpha < 1\), 都有 \[ \phi(\alpha x + (1-\alpha) y) \leq \alpha \phi(x) + (1-\alpha) \phi(y), \] 则称\(\phi(\cdot)\)凸函数。 若\(\phi(x)\)二阶可微且二阶导数非负,则\(\phi(x)\)为凸函数。 例如:

  • \(\phi(x) = x^2\), \(-\infty < x < \infty\);
  • \(\phi(x) = |x|\), \(-\infty < x < \infty\)
  • \(\phi(x) = x^+ = \max(x, 0)\), \(-\infty < x < \infty\);
  • \(\phi(x) = \frac{1}{x}\), \(x > 0\)

定理1.6 (Jensen不等式) \(E|X|<\infty\)\(\phi(x)\)是凸函数,则 \[ E[\phi(X)] \geq \phi(E(X)). \]

证明略。 典型例子: \[ E[X^2] \geq [E(X)]^2 . \]

例1.7 设随机变量\(X \geq 0\)\(EX < \infty\),证明 \[ E [\ln(X)] \leq \ln(E(X)). \]

证明: 令\(\phi(x) = -\ln(x)\), \(x > 0\), 则\(\phi(x)\)为凸函数。 于是 \[ E[\phi(X)] \geq \phi(E(X)) , \] 得证。

○○○○○○

例1.8 设随机变量\(X\)满足\(E|X| < \infty\), 则 \[ E[e^X] \geq e^{E(X)} . \]

证明\(\phi(x) = e^x\)是凸函数。

○○○○○○

例1.9 (匹配问题) 在一次聚会中, n个人将自己的帽子放到房间中央, 混合后每人随机取一个。 设随机变量\(X\)表示取到自己帽子的人数, 求\(X\)的期望和方差.

: 令\(X_i\)表示第\(i\)个人取到自己帽子的示性函数, 则 \[ X = \sum_{i=1}^n X_i . \] 由抽签问题的公平性可知每个人抽取到自己帽子的概率相等, 显然第一个人抽到自己帽子的概率是\(\frac{1}{n}\)。 于是 \[\begin{aligned} E(X) =& \sum_{i=1}^n E(X_i) = \sum_{i=1}^n P(X_i=1) \\ =& n P(X_1 = 1) = n \times \frac{1}{n} = 1 . \end{aligned}\]

易见 \[\begin{aligned} \text{Var}(X_i) =& \text{Var}(X_1) = E(X_1^2) - [E(X_1)]^2 \\ =& E(X_1) - [E(X_1)]^2 = \frac{n-1}{n^2} . \end{aligned}\]

考虑\(E(X_i X_j)\)的计算(\(i < j\))。 由抽签问题的公平性, 这应该等于\(E(X_1 X_2)\)\(X_1 X_2 = 1\)当前仅当前两个人抽到自己的帽子, 概率为 \[ \frac{1}{n} \times \frac{1}{n-1} . \] 于是 \[ \text{Cov}(X_i, X_j) = E(X_i X_j) - E(X_i) E(X_j) = \frac{1}{n^2 (n-1)} . \] 从而 \[\begin{aligned} \text{Var}(X) =& \sum_{i=1}^n \text{Var}(X_i) + 2 \sum_{i<j} \text{Cov}(X_i, X_j) \\ =& n \times \frac{n-1}{n^2} + 2 \times \frac{1}{2} n (n-1) \times \frac{1}{n^2 (n-1)} = 1 . \end{aligned}\]

关于\(X\)的概率分布见1.6.1

○○○○○○

1.3.3 随机向量的期望和方差阵

\(\boldsymbol X = (X_1, \dots, X_n)^T\)是随机向量(表示为列向量), 定义 \[\begin{aligned} E(\boldsymbol X) =& (EX_1, \dots, EX_n)^T . \end{aligned}\]

\(M\)\(n \times p\)矩阵,其中每个元素为随机变量, 称\(M\)为随机矩阵, 定义\(E(M)\)为每个元素的期望所组成的矩阵。

对随机向量\(\boldsymbol X\)定义其协方差阵(方差阵)为 \[\begin{aligned} \text{Var}(\boldsymbol X) = E \left[ (\boldsymbol X - E(\boldsymbol X)) (\boldsymbol X - E(\boldsymbol X))^T \right] . \end{aligned}\]\(\text{Var}(\boldsymbol X) = (\sigma_{ij})_{n \times n}\), 则 \[ \sigma_{ii} = \text{Var}(X_i), \quad \sigma_{ij} = \text{Cov}(X_i, X_j), \ (i \neq j) . \] 显然\(\text{Var}(\boldsymbol X)\)是对称阵,且易证明其为非负定阵。

\(\boldsymbol X\), \(\boldsymbol Y\)分别是\(n\)维和\(m\)维随机向量,定义其协方差阵为 \[ \text{Cov}(\boldsymbol X, \boldsymbol Y) = E \left[ (\boldsymbol X - E(\boldsymbol X)) (\boldsymbol Y - E(\boldsymbol Y))^T \right], \] 这是一个\(n \times m\)矩阵, 其\((i,j)\)元素为\(\text{Cov}(X_i, Y_j)\)。 易见 \[ \text{Cov}(\boldsymbol Y, \boldsymbol X) = [\text{Cov}(\boldsymbol X, \boldsymbol Y)]^T . \]

命题1.1 \(M, C\)为随机矩阵,\(A, B\)为非随机矩阵, 则 \[ E(C + A M B) = E(C) + A E(M) B . \]

命题1.2 \(\boldsymbol X\)为随机向量, \(\boldsymbol\alpha\)为非随机向量, \(B\)为非随机矩阵, 令\(\boldsymbol Y = \boldsymbol\alpha + B \boldsymbol X\), 则 \[\begin{aligned} E(\boldsymbol Y) =& \boldsymbol\alpha + B E(X), \\ \text{Var}(\boldsymbol Y) =& B \text{Var}(\boldsymbol X) B^T . \end{aligned}\]

推论1.1 \(\boldsymbol X\)\(n\)维随机向量, \(\Sigma = \text{Var}(\boldsymbol X)\), 则\(\Sigma\)为非负定矩阵。

证明:只要对任意\(\boldsymbol\alpha \in \mathbb R^n\)都有 \[ \boldsymbol\alpha^T \Sigma \boldsymbol\alpha \geq 0. \]\(Y = \boldsymbol\alpha^T \boldsymbol X\), 则 \[ \text{Var}(Y) = \text{Var}(\boldsymbol\alpha^T \boldsymbol X) = \boldsymbol\alpha^T \Sigma \boldsymbol\alpha \geq 0, \] 得证。

○○○○○○

命题1.3 \(\boldsymbol X, \boldsymbol Y, \boldsymbol Z\)为随机向量, \(\boldsymbol\alpha\)\(\boldsymbol\beta\)为非随机向量, \(A,B\)为非随机矩阵, \[\begin{aligned} \text{Cov}(\boldsymbol\alpha + A \boldsymbol X, \boldsymbol\beta + B \boldsymbol Y) =& A \text{Cov}(\boldsymbol X, \boldsymbol Y) B^T , \\ \text{Cov}(\boldsymbol X + \boldsymbol Z, \boldsymbol Y) =& \text{Cov}(\boldsymbol X, \boldsymbol Y) + \text{Cov}(\boldsymbol Z, \boldsymbol Y) . \end{aligned}\]

定理1.7 \(\boldsymbol X\)为随机向量, 分布函数为\(F(\boldsymbol x)\), 函数\(g\)\(\mathbb R^n\)\(\mathbb R\)的(可测)变换, 则 \[ E[g(\boldsymbol X)] = \int_{\mathbb R^n} g(\boldsymbol x) \,dF(\boldsymbol x) , \] 只要右侧的积分存在。

证明略。

1.3.4 矩母函数

定义1.11 设随机变量\(X\)的分布函数为\(F_X(x)\), 令 \[ \phi_X(t) = E[e^{t X}] = \int_{-\infty}^{\infty} e^{t x} \,dF_X(x) , \]\(\phi_X(t)\)在某个长度大于0的包含原点的区间上取有限值, 则称\(\phi_X(t)\)\(X\)矩母函数.

如果\(X\)是仅取非负值的随机变量, 则\(\phi_X(t)\)\((-\infty, 0]\)上有限。

假设对\(\phi(t)\)求导时, 求导运算与求期望运算可以交换次序, 有 \[\begin{aligned} \phi'(t) =& E(X e^{tX}) \\ \phi''(t) =& E(X^2 e^{tX}) \\ & \vdots \\ \phi^{(n)}(t) =& E(X^n e^{tX}), \end{aligned}\]\(t=0\), 得到 \[ \phi^{(n)}(0) = E[X^n], \ n=1,2,\dots \]

当矩母函数存在时, 它唯一地决定分布, 因此我们能够用矩母函数刻画随机变量的概率分布. 矩母函数还经常用来讨论独立随机变量和的分布。

例1.10 求标准正态分布的矩母函数并求其前4阶矩。

: 设\(X\)服从标准正态分布, 则\(X\)有矩母函数 \[\begin{aligned} \phi(t) =& E(e^{t X}) = \int_{-\infty}^\infty e^{t x} \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \,dx \\ =& \int_{-\infty}^\infty \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2} (x^2 - 2t x)} \,dx \\ =& \int_{-\infty}^\infty \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2} (x - t)^2} e^{\frac{1}{2} t^2} \,dx \\ =& e^{\frac{1}{2} t^2} \int_{-\infty}^\infty \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2} (x - t)^2} \,dx \\ =& e^{\frac{1}{2} t^2} , \ t \in (-\infty, \infty) . \end{aligned}\]

求导得 \[\begin{aligned} \phi'(t) =& t e^{\frac{t^2}{2}}, \\ E(X) =& \phi'(0) = 0; \\ \phi''(t) =& (1 + t^2) e^{\frac{t^2}{2}}, \\ E(X^2) =& \phi''(0) = 1; \\ \phi^{(3)}(t) =& (2t + t(1+t^2)) e^{\frac{t^2}{2}} = (3t + t^3) e^{\frac{t^2}{2}}, \\ E(X^3) =& \phi^{(3)}(0) = 0; \\ \phi^{(3)}(t) =& (3 + 3t^2 + t(3t + t^3)) e^{\frac{t^2}{2}} = (3 + 6 t^2 + t^4) e^{\frac{t^2}{2}}, \\ E(X^4) =& \phi^{(4)}(0) = 3 . \end{aligned}\]

一般地, 对奇数\(k\)\(E(X^k) = 0\), 对偶数\(k\)\(E(X^k) = (k-1)!! = (k-1)(k-3) \cdots 3 \cdot 1\), 见节1.6.2

○○○○○○

例1.11 若随机变量\(X\)有如下密度函数: \[ f(x) = \frac{1}{\pi(1 + x^2)}, \ -\infty < x < \infty, \]\(X\)服从柯西分布。 柯西分布的矩母函数不存在。

证明: 对任意\(t \neq 0\), 有 \[\begin{aligned} E(e^{t X}) =& \int_{-\infty}^\infty e^{t x} \frac{1}{\pi(1 + x^2)} \,dx \\ \geq& \int_0^\infty e^{|t| x} \frac{1}{\pi(1 + x^2)} \,dx \\ \geq& \int_0^\infty \frac{1 + |t| x}{\pi(1 + x^2)} \,dx = +\infty , \end{aligned}\] 所以矩母函数不存在。

○○○○○○

随机变量的矩母函数不一定存在, 在这种情况下, 更方便的是特征函数.

1.3.5 特征函数

定义1.12 若随机变量\(X\)的分布函数为\(F_X(x)\), 则称 \[ \psi_X(t) = E[e^{i t X}] = \int_{-\infty}^{\infty} e^{i t x} \,dF_X(x) \]\(X\)特征函数. 特征函数总存在且定义于\((-\infty, \infty)\)

如果\(F_X\)有密度\(f(x)\),则\(\psi_X(t)\)就是\(f(x)\)的Fourier变换: \[ \psi_X(t) = \int_{-\infty}^{\infty} e^{itx} f(x) dx . \]

特征函数是一个实变量的复值函数, 因为\(|e^{i t x}|=1\), 所以它对一切实数\(t\)都有定义. 可以看成是实部与虚部分别积分的结果: \[ \psi_X(t) = \int_{-\infty}^{\infty} \cos(tx) \,dF_X(x) + i \int_{-\infty}^{\infty} \sin(tx) \,dF_X(x) . \]

特征函数有如下性质:

(1) 有界性:\(|\psi(t)| \leq 1 = \psi(0)\);

(2) 共轭对称性:\(\psi(-t) = \overline{\psi(t)}\);

(3) 一致连续性: \[ |\psi(t+h)-\psi(t)| \leq \int_{-\infty}^{\infty} |e^{i h x} - 1| \,dF(x); \]

(4) 线性变换的作用: 设\(Y=aX+b\), 则\(Y\)的特征函数是\(\psi_Y(t) = e^{ibt} \psi_X(at)\);

(5) 两个相互独立的随机变量之和的特征函数等于它们的特征函数之积;

(6) 非负定性: 对于任意的正整数\(n\), 任意实数\(t_1,\dots,t_n\)及复数\(\lambda_1,\dots,\lambda_n\),有 \[ \sum_{k=1}^n \sum_{j=1}^n \psi(t_k - t_j)\lambda_k\overline{\lambda_j} \geq 0 . \]

(7) 设随机变量\(X\)\(n\)阶矩存在, 则它的特征函数\(n\)阶导数存在, 且当\(k \leq n\)时,有 \[ \psi^{(k)}(0) = i^k E[X^k], \] 其中\(i\)表示虚数单位。

特别地,特征函数可作如下带皮阿诺型余项的Taylor展开: \[ \psi(t) = 1 + i t E[X] + \frac{(it)^2}{2!} E[X^2] + \cdots + \frac{(it)^n}{n!}E[X^n] + o(t^n) . \]

例1.12 求标准正态分布\(\text{N}(0,1)\)的特征函数.

: 由定义 \[ \psi(t) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} e^{itx} e^{-x^2/2}dx, \] 从而 \[\begin{aligned} \psi'(t) =&\frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} i x e^{itx} e^{-x^2/2} \,dx \\ =& \frac{i}{\sqrt{2\pi}} \int_{-\infty}^{\infty} e^{itx} d(-e^{-x^2/2}) \\ =& -\frac{i}{\sqrt{2\pi}} \left(e^{itx - x^2/2} |_{-\infty}^{\infty} + t \int_{-\infty}^{\infty} e^{itx} e^{-x^2/2} \,dx \right) \\ =& -t \psi(t) . \end{aligned}\] 于是 \[\begin{aligned} & \frac{d}{dt} \log \psi(t) = -t, \\ & \psi(t) = c e^{-\frac{1}{2} t^2}, \end{aligned}\]\(\psi(0)=1\)代入得 \[ \psi(t) = e^{-\frac{1}{2} t^2} . \]

○○○○○○

例1.13 求正态分布\(\text{N}(\mu, \sigma^2)\)的特征函数.

证明: 记标准正态分布的特征函数为\(\psi_Z(t)\), 设\(X \sim \text{N}(\mu, \sigma^2)\), 则\(X\)的特征函数为 \[\begin{aligned} \psi(t) = \int_{-\infty}^\infty e^{i t x} \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{1}{2} \frac{(x-\mu)^2}{\sigma^2}} \,dx . \end{aligned}\] 作变量替换\(x = \mu + \sigma y\),则 \[\begin{aligned} \psi(t) =& \int_{-\infty}^\infty e^{i t (\mu + \sigma y)} \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{1}{2} y^2} \sigma \,dy \\ =& e^{i t \mu} \int_{-\infty}^\infty e^{i (t \sigma) y} \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2} y^2} \sigma \,dy \\ =& e^{i t \mu} \psi_Z(t \sigma) = e^{i t \mu} e^{-\frac{1}{2} \sigma^2 t^2} \\ =& \exp\{ i t \mu - \frac{1}{2} \sigma^2 t^2 \} . \end{aligned}\]

用例1.12和特征函数性质(4)也可以得到上述结果。

○○○○○○

例1.14 设随机变量\(X\)服从参数为\(\lambda\)的泊松分布, 求\(X\)的特征函数,并由特征函数求\(X\)的期望和方差.

\[\begin{aligned} \psi(t) =& E[e^{i t X}] = \sum_{k=0}^\infty e^{i t k} \frac{\lambda^k}{k!} e^{-\lambda} \\ =& e^{-\lambda} \sum_{k=0}^\infty \frac{(\lambda e^{it})^k}{k!} = e^{-\lambda} e^{\lambda e^{it}} \\ =& e^{\lambda(e^{it} - 1)} . \\ \psi'(t) =& \lambda i e^{it} e^{\lambda(e^{it} - 1)}, \quad \psi'(0) = \lambda i, \\ E(X) =& \frac{1}{i} \psi'(t) = \lambda . \\ \psi''(t) =& -\lambda e^{it} e^{\lambda(e^{it} - 1)} + \lambda i e^{it} \cdot \lambda i e^{it} e^{\lambda(e^{it} - 1)} \\ =& -\lambda e^{it} e^{\lambda(e^{it} - 1)} - \lambda^2 e^{2 it} e^{\lambda(e^{it} - 1)}, \\ \psi''(0) =& -\lambda - \lambda^2, \\ E(X^2) =& \frac{1}{i^2} \psi''(0) = \lambda + \lambda^2, \\ \text{Var}(X) =& E(X^2) - [E(X)]^2 = \lambda . \end{aligned}\]

○○○○○○

由于特征函数只与分布函数有关, 所以称为分布的特征函数. 另一方面, 有下述定理.

定理1.8 (唯一性定理) 分布函数由其特征函数唯一决定.

证明略。 说明特征函数与分布函数是相互唯一确定的.

若随机向量\(\boldsymbol X = (X_1,\dots,X_n)^T\)的分布函数为\(F(x_1,\dots,x_n)\), 与随机变量相仿, 类似地定义它的特征函数 \[\begin{aligned} \psi(t_1,\dots,t_n) =& E(e^{i \boldsymbol t^T \boldsymbol X}) \\ =& \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} e^{i(t_1 x_1 + \cdots + t_n x_n)} \,dF(x_1,\dots,x_n) . \end{aligned}\]

可以类似于一元的场合,建立起\(n\)元特征函数的理论. 例如,我们在节1.2中定义的多元正态分布是狭义的, 这个定义在推导很多性质时并不方便, 同时还不能考虑\(\Sigma\)不是正定的情形, 为此,我们采用下面的定义. 如果随机向量\(\boldsymbol X\) 的特征函数为 \[ \psi_{\boldsymbol X}(\boldsymbol t) = \exp\left\{ i \boldsymbol t^T \boldsymbol\mu - \frac{1}{2} \boldsymbol t^T \Sigma \boldsymbol t \right \}, \] 则称\(\boldsymbol X\)服从多元正态分布\(\text{N}(\boldsymbol \mu, \Sigma)\). \(\Sigma\)是非负定\(n \times n\)矩阵. 当\(\boldsymbol \mu = \boldsymbol 0\)\(\Sigma=I_n\)时, 称为标准多元正态分布, 记为\(\boldsymbol X \sim \text{N}(\boldsymbol 0, I_n)\), 这就是由独立同分布的\(n\)个标准正态分布随机变量组成的随机向量。

利用特征函数方法不难证明如下的关于正态分布线性组合的性质:

命题1.4 \(\boldsymbol X \sim \text{N}(\boldsymbol 0, I_n)\), 则\(\boldsymbol X\)的任一线性函数\(\boldsymbol Y = A_{m \times n} \boldsymbol X + \boldsymbol \mu\)服从\(m\)维正态分布\(\text{N}(\boldsymbol \mu, AA^T)\).

命题1.5 \(\boldsymbol Y \sim \text{N}(\boldsymbol \mu, \Sigma)\), 则 \[ A \boldsymbol Y + \boldsymbol b \sim \text{N}(A \boldsymbol \mu + \boldsymbol b, A \Sigma A^T) . \]

多元正态分布的更多性质参见节7.1.2

1.4 收敛性

定义1.13 (1) 设\(\{X_n, n \geq 1\}\)是随机变量序列, 若存在随机变量\(X\)使得 \[ P\{\omega \in \Omega: \lim_{n \to \infty} X_n(\omega) = X(\omega) \} = 1 , \] 则称随机变量序列\(\{ X_n, n \geq 1\}\)几乎必然收敛(或a.s.收敛,或以概率1收敛)到\(X\), 记为 \(X_n \to X\), a.s.或\(X_n \stackrel{\text{a.s.}}{\longrightarrow}X\).

(2) 设\(\{X_n, n \geq 1\}\)是随机变量序列, 若存在随机变量\(X\)使得\(\forall\varepsilon > 0\), 有 \[ \lim_{n \to \infty} P \{ |X_n - X| \geq \varepsilon \}=0 , \] 则称随机变量序列\(\{X_n, n \geq 1\}\)依概率收敛\(X\), 记为\(X_n \stackrel{P}{\longrightarrow} X\).

(3) 设随机变量序列\(\{X_n\} \subset L^p\), \(p \geq 1\), \(X \in L^p\),若有 \[ \lim_{n \to \infty} E[|X_n - X|^p] = 0 , \] 则称随机变量序列\(\{X_n, n \geq 1\}\)\(p\)平均收敛\(X\), 或称\(\{X_n\}\)\(L^p\)强收敛\(X\). 当\(p=2\)时,称为均方收敛.

(4) 设\(\{F_n(x)\}\)是分布函数列,如果存在一个单调不减函数\(F(x)\), 使得在\(F(x)\)的所有连续点\(x\)上均有 \[ \lim_{n \to \infty} F_n(x) = F(x) , \] 则称\(\{F_n(x)\}\)弱收敛(或依分布收敛)到\(F(x)\), 记为\(F_n(x) \stackrel{W}{\longrightarrow} F(x)\)\(F_n(x) \stackrel{d}{\longrightarrow} F(x)\). 设随机变量\(X_n\), \(X\)的分布函数分别为\(F_n(x)\)\(F(x)\)\(F_n(x) \stackrel{W}{\longrightarrow} F(x)\), 则称\(\{X_n\}\)依分布收敛\(X\), 记为\(X_n\stackrel{d}{\longrightarrow}X\)

注:\(L^p\)是所有满足\(E|X|^p < \infty\)的随机变量\(X\)的集合。

\(F_n\)依分布收敛到\(F\), 当且仅当\(F_n\)的特征函数\(\psi_n(t)\)点点收敛到\(F\)的特征函数\(\psi(t)\)

定理1.9 (1) 随机变量序列\(X_n \to X\), a.s.的充分必要条件是\(\forall \varepsilon > 0\)\[ \lim_{n \to \infty} P\{\sup_{m \geq n} |X_m-X| \geq \varepsilon\}=0 . \]

(2)} 随机变量序列\(X_n \stackrel{P}{\longrightarrow} X\)的充分必要条件是\(\{X_n\}\)的任意子序列都包含几乎必然收敛到\(X\)的子序列.

随机变量序列的这4种收敛性之间的关系可以总结为下面的关系图(\(p\geq 1\)): \[\begin{aligned} & \text{几乎必然收敛} \Longrightarrow \text{依概率收敛} \Longrightarrow \text{依分布收敛}; \\ & p \text{次平均收敛} \Longrightarrow \text{依概率收敛} \Longrightarrow \text{依分布收敛} . \end{aligned}\]

注: 几乎必然收敛与\(p\)阶矩收敛之间没有蕴含关系.

例1.15 \(\Omega=(0,1]\), \({\mathscr F}\)\((0,1]\)中全体Borel子集所构成\(\sigma\)代数, \(P\)为Lebesgue测度(长度的推广), 我们可以构造出两个个随机变量序列, 其中之一是\(r\)次平均收敛的, 但是不几乎必然收敛; 另外一个则几乎必然收敛, 但不是\(r\)次平均收敛的.

: 令 \[\begin{aligned} Y_{11} =& 1; \\ Y_{21} =& \begin{cases} 1 & \omega \in (0,\frac{1}{2}], \\ 0 & \omega \in (\frac{1}{2}, 1] ; \end{cases} \\ Y_{22} =& \begin{cases} 0 & \omega \in (0,\frac{1}{2}], \\ 1 & \omega \in (\frac{1}{2}, 1] . \end{cases} \end{aligned}\] 一般地,将\((0,1]\)分成\(k\)个等长区间,并且令 \[ Y_{ki} = \begin{cases} 1 & \omega \in (\frac{i-1}{k},\frac{i}{k}] ,\\ 0 & \omega \notin (\frac{i-1}{k},\frac{i}{k}] , \end{cases} \ i=1, \dots, k,\ k=1,2,\dots \] 定义随机变量序列 \[ X_1=Y_{11}, \ X_2=Y_{21}, \ X_3=Y_{22}, \ X_4=Y_{31}, \ X_5=Y_{32},\dots, \] 对任意\(\varepsilon > 0\), 由于 \[ E|Y_{ki} - 0|^r = \frac{1}{k} \to 0,\ (k\to \infty) \] 可见\(\{X_n\}\)\(r\)次平均收敛, 但是对任意固定的\(\omega\in \Omega\), 任一自然数\(k\),恰有一个\(i\),使得\(Y_{ki}(\omega)=1\), 而对其余的\(j\)\(Y_{kj}(\omega)=0\). 由此知\(\{X_n(\omega)\}\)中有无穷多个1及无穷多个0, 于是\(\{X_n(\omega)\}\)对每个\(\omega \in \Omega\) 都不收敛.

如果取 \[\begin{aligned} Z_n =& \begin{cases} n^{\frac{1}{r}} & \omega \in (0,\frac{1}{n}] \\ 0 & \omega \notin (0,\frac{1}{n}] \end{cases} \\ Z =& 0, \ \forall \omega \in \Omega, \end{aligned}\] 易见,\(Z_n(\omega) \to Z(\omega)\), \(\forall \omega \in \Omega\), 所以 \[ Z_n \to Z, \ \text{a.s.}, \] 但是\(E(|Z_n - Z|^r) = n \cdot \frac{1}{n} = 1 \not\to 0\).

○○○○○○

下面我们给出积分号下取极限的三大基本定理.

定理1.10 (单调收敛定理) \(X_n\)期望存在(不一定有限), \(n\geq 1\),则:

(1) 若\(X_n \uparrow X\), a.s., 且\(E(X_1) > -\infty\), 则\(E(X)\)存在,且 \[ E(X_n) \uparrow E(X) . \]

(2) 若\(X_n \downarrow X\), a.s., 且\(E(X_1) <\infty\),则\(E(X)\)存在,且 \[ E(X_n) \downarrow E(X) . \].

定理1.11 (Fatou引理) 设随机变量序列\(\{X_n\}\)的期望存在, \(n \geq 1\), 则 \[ E[\liminf_{n\to \infty} X_n] \leq \liminf_{n \to \infty} E[X_n] \leq \limsup_{n \to \infty} E[X_n] \leq E[\limsup_{n \to \infty} X_n] . \]

定理1.12 (Lebesgue控制收敛定理) \(X_n, X\)一阶矩有限, \(X_n \to X\), a.s.或\(X_n \stackrel{P}{\longrightarrow} X\). 若存在一非负随机变量\(Y\)满足\(E(Y)<\infty\), 且使得\(\forall n \geq 1\)\(|X_n| \leq Y\), a.s.,则\(E(X)\)有限, 且有 \[ \lim_{n \to \infty} E(X_n) = E(X) = E(\lim_{n\to\infty} X_n) . \]

推论1.2 \(X_n\)为随机变量序列, \(X_n \to X\), a.s., 对某个\(1 \leq p < \infty\), 有非负随机变量\(Y\)满足\(E(Y^p) < \infty\)\(|X_n| \leq Y\), a.s., 则有 \[ E|X_n - X|^p \to 0, \ n \to \infty, \]\(X_n\)\(L^p\)意义下收敛到\(X\)

证明: 易见\(X_n\)\(X\)也都存在\(p\)阶矩。 令\(Z_n = |X_n - X|^p\), 则\(Z_n \to 0\), a.s., 且 \[ Z_n \leq (|X_n| + |X|)^p \leq 2^p Y^p, \] 由控制收敛定理即可知\(EZ_n \to 0\), 证毕。

○○○○○○

1.5 独立性与条件期望

1.5.1 独立性

定义1.14 (1) 设\(A,B\)为两个事件, 若 \[ P(A \cap B)=P(A)P(B), \] 则称\(A\)\(B\)独立.

(2) 设\(A_1,A_2,\dots,A_n\)\(n\)个事件, 如果对任何\(m \leq n\)\(1 \leq i_1 < i_2 < \cdots < i_m \leq n\),有 \[ P\left( \bigcap_{j=1}^m {A_{i_j}} \right) = \prod_{j=1}^m {P(A_{i_j})} , \] 则称\(A_1,A_2,\dots,A_n\)相互独立.

(3) 设\(\{A_i, i \in I\}\)是一族事件, 若对\(I\)的任意有限子集\(\{i_1, \dots, i_m \} \neq \emptyset\)都有 \[ P\left(\bigcap_{j=1}^m A_{i_j}\right) = \prod_{j=1}^m P(A_{i_j}), \] 则称\(\{A_i, i \in I\}\)是相互独立的.

(4) 设\(\{{\mathcal A}_i, i \in I\}\)是一族事件类, 如果对\(I\)的任意有限子集\(\{i_1, \dots, i_m \} \neq \emptyset\)和任意\(A_{i_j} \in {\mathcal A}_{i_j}\)(\(j=1,2,\dots,m\))都有 \[ P\left(\bigcap_{j=1}^m A_{i_j} \right) = \prod_{j=1}^m P(A_{i_j}), \] 则称\(\{{\mathcal A}_i, i \in I\}\)独立事件类.

(5) 设\(\{ X_i, i \in I\}\)\(\Omega\)上一族随机变量, 如果\(\sigma\)代数族\(\{\sigma(X_i), i \in I\}\)是独立事件类, 则称\(\{X_i, i \in I \}\)相互独立.

(6) 设\(\{ \boldsymbol X_i, i \in I\}\)是随机变量族的集合, 其中的每个\(\boldsymbol X_i\)是一族随机变量,\(I\)为足标集, 如果\(\sigma\)代数族\(\{\sigma(\boldsymbol X_i), i \in I\}\)是独立事件类, 则称\(\{\boldsymbol X_i, i \in I \}\)相互独立.

注1:当\(P(B)>0\)时, \(A, B\)相互独立当且仅当 \[ P(A|B) = P(A), \]\(B\)是否发生不影响到\(A\)发生的概率。

注2:\(A_1,A_2,\dots,A_n\)两两独立不一定相互独立.

容易证明随机变量\(X_1, \dots, X_n\)相互独立的充分必要条件是它们的联合分布函数可以分解为 \[ F(x_1, \dots, x_n) = F_{X_1}(x_1) \cdots F_{X_n}(x_n) . \] 对离散分布的随机变量,相互独立当且仅当 \[ P(X_1=x_1, \dots, X_n=x_n) = P(X_1=x_1) \cdots P(X_n=x_n), \ \forall x_1, \dots, x_n . \]

对连续型分布的随机向量\((X_1, \dots, X_n)\), 其分量相互独立当且仅当分布密度等于边缘密度的乘积: \[ f(x_1, \dots, x_n) = f_{X_1}(x_1) \cdots f_{X_n}(x_n), \ \forall x_1, \dots, x_n . \]

随机变量\(X_1, \dots, X_n\)相互独立, 当且仅当其联合特征函数等于边缘特征函数的乘积: \[ E[\exp\{ i(t_1 X_1 + \dots + t_n X_n) \}] = E(e^{it_1 X_1}) \cdots E(e^{it_n X_n}), \ \forall (t_1, \dots, t_n) \in \mathbb R^n . \]

若随机变量\(X_1, \dots, X_n\)矩母函数存在, 则其相互独立当且仅当联合矩母函数等于边缘矩母函数的乘积: \[ E[\exp\{ t_1 X_1 + \dots + t_n X_n \}] = E(e^{t_1 X_1}) \cdots E(e^{t_n X_n}), \ \forall (t_1, \dots, t_n) \in D , \] 其中\(D\)\(\mathbb R^n\)中使得矩母函数有定义的超长方体。

\(A, B\)为两个事件,

\[\begin{aligned} & A, B \text{独立} \\ \iff& A, B^c \text{独立} \\ \iff& A^c, B \text{独立} \\ \iff& A^c, B^c \text{独立} \\ \iff& I_A, I_B \text{独立} . \end{aligned}\]

定理1.13 \(\{ \mathscr F_i, i \in I \}\)是相互独立的\(\mathscr F\)的子\(\sigma\)代数族, \(\{ I_j \subset I: j \in J \}\)\(I\)的互不相交的子集族, 则\(\{ \sigma(\mathscr F_k, k \in I_j): j \in J \}\)是相互独立的子\(\sigma\)代数族。

证明略,参见(王寿仁 1997) P.47 系2.4.7。

推论1.3 设随机变量族\(\{ X_i: i \in I \}\)相互独立, \(\{ I_j \subset I: j \in J \}\)\(I\)的互不相交的子集族, 则\(\{ (X_k, k \in I_j), j \in J \}\)相互独立。

推论1.4 \(\{X_n, n \in \mathbb Z\}\)是独立随机变量序列, 则其任意的不相交的子集仍为独立的随机变量族。

定理1.14 \(\{X_i, i \in I\}\)是随机变量族, \(\{ I_j \subset I: j \in J \}\)\(I\)的互不相交的子集族, \(g_j(\cdot), j \in J\)为可测函数, 令\(Y_j = g_j(X_k, k \in I_j)\), 则\(\{Y_j, j \in J \}\)相互独立。

这个定理说明相互独立的随机变量进行不相交的分组后分别作变换, 结果仍相互独立。

证明\(Y_j\)关于\(\sigma(X_k, k \in I_j)\)可测, 从而\(\sigma(Y_j) \subset \sigma(X_k, k \in I_j)\)。 令\(\mathscr F_i = \sigma(X_i)\), 由定理1.13可知\(\{ \sigma(\mathscr F_k, k \in I_j): j \in J \}\)是相互独立的子\(\sigma\)代数族, 由事件类相互独立的定义可知\(\{\sigma(Y_j), j \in J\}\)相互独立, 即\(\{ Y_j, j \in J\}\)相互独立。

○○○○○○

定理1.15 (1) 设随机变量\(X_1, \dots, X_n\)是相互独立且一阶矩有限, 则 \[ E \left[\prod_{k=1}^n X_k \right] = \prod_{k=1}^n E[X_k] . \]

(2) 设随机变量\(X_1, \dots, X_n\)相互独立且二阶矩有限,则 \[ \text{Var} \left[ \sum_{k=1}^n X_k \right] = \sum_{k=1}^n \text{Var}[X_k] . \]

定理1.16 (Borel-Cantelli第一引理) \(\{A_n, n \geq 1\}\)是一列事件, 若 \[ \sum_{n=1}^{\infty} P(A_n)< \infty , \]\[ P(A_n, \text{ i.o.}) = 0. \]

证明: \[\begin{aligned} & P(A_n, \text{ i.o.}) = P(\bigcap_{n=1}^\infty \bigcup_{m=n}^\infty A_m) \\ \leq& P(\bigcup_{m=n}^\infty A_m) \leq \sum_{m=n}^\infty P(A_m) \to 0 \ (n \to \infty) . \end{aligned}\]

○○○○○○

定理1.17 (Borel-Cantelli第二引理) \(\{A_n, n \geq 1\}\)是独立的事件列, 若 \[ \sum_{n=1}^{\infty} P(A_n) = +\infty, \]\[ P(A_n, \text{ i.o.}) = 1. \]

定义1.15 \(\{X_n, n \geq 1\}\)是随机变量序列, \(\mathscr {D}_k = \sigma(X_k, X_{k+1}, \dots)\)是由\(X_k,X_{k+1},\cdots\)生成的\(\sigma\)代数, 则\(\{\mathscr {D}_k\}\)是非增的列, 它们的交\(\mathscr{D} = \bigcap_{n \geq 1}{\mathscr {D}}_n\)称为序列\(\{X_n, n \geq 1\}\)\(\sigma\)代数\(\mathscr{D}\)中的集合称为\(\{X_n, n \geq 1 \}\)尾事件.

定理1.18 (Kolmogorov 0-1律) 独立随机变量序列的尾事件的概率或为0或为1.

1.5.2 独立随机变量和的分布

设随机变量\(X_1, X_2\)相互独立, \(F_1, F_2\)分别为它们的分布函数. 令\(X = X_1 + X_2\), 其分布函数记为 \(F_X(x)\). 则由独立性,有 \[\begin{align} F_X(x) =& P\{X_1+X_2\leq x\} \\ =& \int_{-\infty}^{\infty} P\{X_1+X_2 \leq x| X_1=t \} dF_1(t) \quad(\text{全期望公式}) \\ =& \int_{-\infty}^{\infty} F_2(x-t) \,dF_1(t) . \tag{1.1} \end{align}\] (1.1)式称作分布函数\(F_1,F_2\)的卷积, 记为\(F_1*F_2(x)\). 一般地对有界函数\(g(x)\)和一个单调函数\(F(x)\), 都可以定义\(F\)\(g\)的卷积: \[ F*g(x) \stackrel{\triangle}{=} \int_{-\infty}^{\infty} g(x-t) \,dF(t) . \]

这里需要注意的是\(F*g\)的顺序, \(g*F\)可能没有意义. 但是当\(F\)\(g\)都是分布函数时, 卷积可以交换顺序, 只需注意到卷积中的随机变量\(X_1\)\(X_2\)的地位是对等的即可得到 \[ F_1*F_2(x) = F_2*F_1(x) . \]

\(F\)有密度\(f\)时,卷积\(F*g\)就是通常的两个函数的卷积: \[ F*g(x) = \int_{-\infty}^{\infty} g(x-t) \,dF(t) = \int_{-\infty}^{\infty} g(x-t) f(t) \,dt . \]

容易看出,对于分布函数, 卷积还满足结合律和分配律. 即对分布函数\(F,G,H\),有 \[\begin{aligned} (F*G)*H(x) =& F*(G*H)(x) , \\ F*(G+H)(x) =& F*G(x) + F*H(x) . \end{aligned}\]

于是,更进一步还有, 设\(X_k, k=1,2,\dots,n\)是独立同分布\(F\)的随机变量,令 \[ S_0 = 0, \ S_n = \sum_{k=1}^n X_k, \ n=1,2,\dots, \]\(S_n\)的分布记作\(F_n\),则有 \[\begin{aligned} F_0(x) =& \begin{cases} 0, & x < 0, \\ 1, & x \geq 0 , \end{cases} \\ F_n(x) =& F*F_{n-1}(x), n=1,2,\dots \end{aligned}\]\(F_n\)\(F\)\(n\)重卷积.

独立随机变量和的分布, 经常借助于矩母函数和特征函数研究, 这是利用了独立随机变量变量乘积的期望等于期望的乘积。

1.5.3 关于一个随机变量的条件期望

请参考(刘勇 2022)

定义1.16 \(B\)是一个事件, 且\(P(B)>0\), 则事件\(B\)发生的条件下事件\(A\)发生的条件概率\[ P(A|B) = \frac{P(A \cap B)}{P(B)} \]

\(P(B) > 0\)时, \(A, B\)独立当且仅当\(P(A|B)=P(A)\)

定义1.17 \(P(C) > 0\), 称事件\(A, B\)在事件\(C\)的条件下独立, 若 \[ P(AB | C) = P(A | C) P(B | C) . \]

条件独立不一定独立, 独立也不一定条件独立。

定理1.19 (全概率公式) \(\{B_n\}\)\(\Omega\)的一个分割, 且\(P(B_n)>0\), \(\forall n\). 对\(A \in {\mathscr F}\),有 \[ P(A) = \sum_n P(B_n) P(A|B_n) . \]

定理1.20 (Bayes公式) \(\{B_n\}\)\(\Omega\)的一个分割, 且\(P(B_n)>0\), \(\forall n\), 如果\(P(A)>0\),则 \[ P(B_k|A) = \frac{P(B_k) P(A|B_k)}{\sum_n P(B_n) P(A|B_n)}, \ \forall k . \]

如果\(X\)\(Y\)是离散型随机变量, 设\(X\)的取值集合为\(\{x_k, k=1,2,\dots\}\), 则给定\(X=x_k\)时,\(Y\)的条件概率分布定义为: \[ P\{Y=y | X=x_k \} = \frac{P\{X=x_k,Y=y\}}{P\{X=x_k\}} . \] \(Y\)的条件分布函数定义为: \[ F(y|x_k) = P\{Y \leq y | X=x_k\} . \] \(Y\)的条件期望定义为: \[ E[Y|X=x_k] = \int_{-\infty}^{\infty} y \,dF(y|x_k) = \sum_m y_m P\{Y=y_m | X=x_k\} . \]

如果\(X\)\(Y\)有联合概率密度函数\(f(x,y)\), 则对一切使得\(f_X(x) > 0\)\(x\), 给定\(X=x\)时, \(Y\)的条件概率密度函数定义为: \[ f(y|x)=\frac{f(x,y)}{f_X(x)} . \] \(Y\)的条件分布函数定义为: \[ F(y|x) = P\{Y \leq y| X=x \} = \int_{-\infty}^y f(u|x) \,du . \] \(Y\)的条件期望定义为: \[ E[Y|X=x] = \int_{-\infty}^{\infty} y \,dF(y|x) = \int_{-\infty}^{\infty} y f(y|x) \,dy . \]

\(E[Y | X=x]\)有定义时, 记\(g(x) = E[Y | X=x]\)\(g(X)\)\(X\)的函数, 记作\(E[Y|X]\)\(E[Y|X]\)是利用自变量\(X\)的信息对因变量\(Y\)所作的均方误差最小的预测。

对离散分布的\(X\), 设\(X\)的取值集合为\(\{x_k, k=1,2,\dots\}\), 这时\(g(x_k) = E[Y | X=x_k]\), \(E[Y|X] = g(X)\)\(X=x_k\)时为\(E[Y | X=x_k]\), 所以可以写成 \[ E[Y | X] = \sum_{k=1}^\infty E[Y | X=x_k] I_{\{ X=x_k\}} . \]

给定\(X=x\)条件下的\(Y\)的条件分布的方差称为条件方差, 记为\(\text{Var}(Y|X=x)\)\[ \text{Var}(Y|X=x) = \int_{-\infty}^\infty (y - E(Y|X=x))^2 \,dF(y | X=x) , \] 这是\(x\)的函数\(h(x)\), 记\(\text{Var}(Y|X) = h(X)\)

命题1.6 \(E(Y^2) < \infty\), 则 \[ \text{Var}(Y) = E[\text{Var}(Y|X)] + \text{Var}[E(Y|X)] . \]

证明\[\begin{aligned} & E[\text{Var}(Y|X)] \\ =& \int_{-\infty}^\infty E\left\{ [ Y - E(Y|X=x)]^2 | X=x \right\} \,dF_X(x) \\ =& \int_{-\infty}^\infty \left\{ E(Y^2 | X=x) - [E(Y|X=x)]^2 \right\} \,dF_X(x) \\ =& \int_{-\infty}^\infty E(Y^2 | X=x) \,dF_X(x) - \int_{-\infty}^\infty [E(Y|X=x)]^2 \,dF_X(x). \\ & \text{Var}[E(Y|X)] \\ =& E\{ [E(Y|X)]^2 \} - \{ E[E(Y|X)] \}^2 \\ =& \int_{-\infty}^\infty [E(Y|X=x)]^2 \,dF_X(x) - [E(Y)]^2 , \\ & E[\text{Var}(Y|X)] + \text{Var}[E(Y|X)] \\ =& \int_{-\infty}^\infty E(Y^2 | X=x) \,dF_X(x) - [E(Y)]^2 \\ =& E[E(Y^2|X)] - [E(Y)]^2 = E(Y^2) - [E(Y)]^2 = \text{Var}(Y) . \end{aligned}\]

○○○○○○

定理1.21 (全期望公式) \(X, Y\)为随机变量, 期望存在, 则 \[\begin{align} E[Y] = E\{ E[Y|X] \} = \int_{-\infty}^\infty E[Y|X=x] \,dF_X(x) . \tag{1.2} \end{align}\]

\(X\)为一个离散随机变量时, 设其取值集合为\(\{x_k, k=1,2,\dots\}\)(1.2)式为 \[ E[Y] = \sum_{k=1}^\infty E[Y|X=x_k] P\{X=x_k\} . \]\((X, Y)\)为连续型随机向量时,(1.2)式为 \[ E[Y] = \int_{-\infty}^{\infty} E[Y|X=x] f_X(x) \,dx . \]

例1.16 (随机个随机变量之和) \(X_1,X_2,\dots\)是一列独立同分布的随机变量; 设\(N\)为取非负整数值的随机变量, 且与序列\(X_1,X_2,\dots\)独立. 求\(Y=\sum_{i=1}^{N} X_i\)的均值和方差.

: 如果\(X_1\)的矩母函数\(\phi(t)\)存在, 可以求\(Y\)的矩母函数 \[\begin{aligned} \phi_Y(t) =& E(e^{t Y}) = E[E(e^{t Y} | N)] = \sum_{n=0}^\infty E(e^{t Y} | N=n) P(N=n) \\ =& P(N=0) + \sum_{n=1}^\infty \prod_{i=1}^n E(e^{t X_i}) P(N=n) \\ =& P(N=0) + \sum_{n=1}^\infty [\phi(t)]^n P(N=n) \\ =& E[\phi(t)]^N . \end{aligned}\]\({\phi}_Y(t)\)求导得 \[\begin{aligned} \phi_Y'(t) =& E[N({\phi}(t))^{N-1}{\phi}'(t)] , \\ E(Y) =& \phi_Y'(0) = E[N E(X_1)] = E(N) E(X_1) .\\ \phi_Y''(t) =& E[N(N-1)({\phi}(t))^{N-2}({\phi}'(t))^2 + N({\phi}(t))^{N-1}{\phi}''(t)] , \\ E(Y^2) =& \phi_Y''(0) = E[N(N-1) [E(X_1)]^2] + E[N E(X_1^2)] \\ =& [E(X_1)]^2 E[N(N-1)] + E(X_1^2) E(N), \\ \text{Var}(Y) =& E(Y^2) - [E(Y)]^2 \\ =& [E(X_1)]^2 E[N(N-1)] + E(X_1^2) E(N) - [E(N)]^2 [E(X_1)]^2 \\ =& [E(X_1)]^2 \text{Var}(N) + \text{Var}(X_1) E(N) . \end{aligned}\]

因为\(X_1\)的矩母函数不一定存在, 我们直接求\(E(Y)\)\(E(Y^2)\)\[ E(Y) = E[E(Y|N)], \] 其中 \[\begin{aligned} E(Y|N=n) =& E(\sum_{i=1}^n X_i | N=n) \\ =& E(\sum_{i=1}^n X_i) \quad (\text{利用独立性}) \\ =& n E(X_1), \end{aligned}\]\[ E(Y) = E(N E(X_1)) = E(X_1) E(N) . \]

再来求 \[ E(Y^2) = E[E(Y^2 | N)] , \] 其中 \[\begin{aligned} & E(Y^2 | N=n) = E[ (\sum_{i=1}^n X_i)^2 | N=n] \\ =& E[ (\sum_{i=1}^n X_i)^2 ] = \text{Var}[\sum_{i=1}^n X_i] + [ E(\sum_{i=1}^n X_i) ]^2 \\ =& n \text{Var}(X_1) + n^2 [E(X_1)]^2, \end{aligned}\]\[\begin{aligned} E(Y^2) =& E\{N \text{Var}(X_1) + N^2 [E(X_1)]^2 \} \\ =& E(N) \text{Var}(X_1) + E(N^2) [E(X_1)]^2, \\ \text{Var}(Y) =& E(Y^2) - [E(Y)]^2 \\ =& [E(X_1)]^2 \text{Var}(N) + \text{Var}(X_1) E(N) . \end{aligned}\]

\(\text{Var}(Y)\), 也可以利用 \[\begin{aligned} & \text{Var}(Y|N=n) = \text{Var}(\sum_{i=1}^n X_i | N=n) \\ =& \text{Var}(\sum_{i=1}^n X_i) = n \text{Var}(X_1) \end{aligned}\] 得到\(\text{Var}(Y|N) = N \text{Var}(X_1)\), 从而得到 \[\begin{aligned} \text{Var}(Y) =& E[\text{Var}(Y|N)] + \text{Var}[E(Y|N)] \\ =& E[N \text{Var}(X_1)] + \text{Var}[N E(X_1)] \\ =& [E(X_1)]^2 \text{Var}(N) + \text{Var}(X_1) E(N) . \end{aligned}\]

○○○○○○

例1.17 一个矿工陷进一个有三个门的矿井。 第一个门通向一个隧道, 沿此隧道走2小时的旅程他可到达安全地; 第二个门通向另一个隧道, 沿此隧道走3小时会使他回到矿井; 第三个门通向一个隧道, 沿此隧道走5小时会使他回到矿井。 假定矿工总是等可能地选取任意一个门, 用\(X\)表示矿工到达安全地所需的时间, 求\(X\)的均值及矩母函数。

: 写出\(X\)的分布列很困难, 故无法直接求其均值。 在类似的问题中, 我们经常使用关于某种初始状态(或选择)取条件的方法。

\(Y\)表示矿工第一次选择的门, 即\(\{Y=i\}\)表示第一次选择第\(i\)个门, 由题意知 \[ p\{Y=1\}=P\{Y=2\}=P\{Y=3\}=\frac{1}{3} . \]

关于\(Y\)取条件,有 \[\begin{aligned} E[X] =& E[E(X|Y)] \\ =& \sum_{i=1}^3 E[X|Y=i] P(Y=i) \\ =& \frac{1}{3} \{E[X|Y=1] + E[X|Y=2] + E[X|Y=3] \} \\ =& \frac{1}{3} \{2 + (3+E[X]) + (5+E[X]) \} . \end{aligned}\] 故有\(E[X]=10\).

矩母函数: \[\begin{aligned} E[e^{tX}] =& E[E(e^{tX}|Y)] \\ =& \frac{1}{3}\{E[e^{tX}|Y=1] + E[e^{tX}|Y=2] + E[e^{tX}|Y=3]\}, \end{aligned}\] 易知\(E[e^{tX}|Y=1]=e^{2t}\); 当\(Y=2\)时,\(X=3+X'\), 其中\(X'\)是回到矿井后再到达安全区所附加的时间, \(X\)\(X'\)有相同的分布,故有 \[ E[e^{tX}|Y=2] =E[e^{t(3 + X')}] =e^{3t} E[e^{tX}] , \] 同理可得 \[ E[e^{tX}|Y=3] = E[e^{t(5+X')}] =e^{5t} E[e^{tX}] . \] 于是得 \[ E[e^{tX}] = \frac{e^{2t}}{3-e^{3t}-e^{5t}} . \]

○○○○○○

1.5.4 关于\(\sigma\)代数的条件期望

最后我们将条件期望推广到一般随机变量及\(\sigma\)代数情形.

\(X\)是随机变量, \(B\)是事件且\(P(B)>0\), 则给定事件\(B\), 随机变量\(X\)的条件期望定义为 \[ E[X|B] = [P(B)]^{-1} E[X I_B] . \]

这相当于将\(\Omega\)限制到\(B\)中得到一个新的概率测度, 在这个概率测度下求\(X\)的期望。

\(\mathscr G\)是概率空间\((\Omega, \mathscr F, P)\)的子\(\sigma\)代数, \(X\)\((\Omega, \mathscr F, P)\)中的随机变量。 \(X\)\(\mathscr G\)的关系可以分为如下三种情况:

  • \(X\)关于\(\mathscr G\)可测。 在已知\(\mathscr G\)的情况下, 关于\(X\)的任何取值论断(严格来讲是${ X B$, \(B\)为Borel集)都可以确定地给出肯定或者否定的回答。 注意这不依赖于概率测度。
  • \(X\)\(\mathscr G\)独立。 知道\(\mathscr G\)中的信息对\(X\)的取值可能性没有任何影响。 独立性依赖于概率测度。
  • \(X\)既不是关于\(\mathscr G\)可测,与不与\(\mathscr G\)独立。 这时可以用\(\mathscr G\)的信息对\(X\)进行预测, 得到条件数学期望\(E(X | \mathscr G)\)

所谓已知\(\mathscr G\)后所能获得的信息, 可以理解为试验结果\(\omega \in \Omega\)的信息不能完全知道, 但\(\forall A \in \mathscr G\)\(\omega \in A\)还是\(\omega \notin A\)都可以给出明确答案。 \(\mathscr G\)中的集合越多, 能给出明确答案的问题就越多; 最小的\(\sigma\)代数是\(\{\Omega, \emptyset \}\), 相当于没有信息。

定义1.18 \(Y\)是随机变量且\(E|Y|<\infty\), \(\mathscr G\)\({\mathscr F}\)的子\(\sigma\)代数, 存在唯一的(几乎必然相等的意义下)随机变量\(Y^{*}\), 使得\(E|Y^*|<\infty\)\(Y^*\)关于\({\mathscr{G}}\)可测,且 \[ E[Y^* I_B] = E[Y I_B], \ \forall B \in {\mathscr{G}} , \] 称随机变量\(Y^*\)\(Y\)在给定\({\mathscr{G}}\)下的条件期望, 记为\(Y^* = E[Y | {\mathscr{G}}]\).

这个定义不如前面的\(E(Y|X)\)容易理解。 我们考虑\(E(Y^2) < \infty\)的情形, 这时称\(Y \in L^2(\Omega, \mathscr F, P)\), 这是一个Hilbert空间, 内积为\(\langle X, Y \rangle = E(XY)\)。 这时必有\(Y^* \in L^2(\Omega, \mathscr G, P)\)\[\begin{aligned} & Y^* = E(Y | \mathscr G) \\ \iff & Y^* \text{关于} \mathscr G \text{可测且} E[(Y - Y^*) I_B] = 0, \ \forall B \in {\mathscr{G}} \\ \iff & Y^* \in L^2(\Omega, \mathscr G, P) \text{且} E[(Y - Y^*) \xi] = 0, \ \forall \xi \in L^2(\Omega, \mathscr G, P) \\ \iff & Y^* \in L^2(\Omega, \mathscr G, P) \text{且} E[(Y - Y^*)^2] \leq E[(Y - \xi)^2] , \ \forall \xi \in L^2(\Omega, \mathscr G, P) . \end{aligned}\]

\(E(Y|\mathscr G)\)是用关于\(\mathscr G\)可测的随机变量\(\xi\)\(Y\)进行逼近, 在均方误差最小准则下的最佳逼近。

如果仅要求\(E|Y| < \infty\), 则 \[\begin{aligned} & Y^* = E(Y | \mathscr G) \\ \iff & Y^* \text{关于} \mathscr G \text{可测且} E[(Y - Y^*) I_B] = 0, \ \forall B \in {\mathscr{G}} \\ \iff & Y^* \text{关于} \mathscr G \text{可测且} E[(Y - Y^*) \xi] = 0, \ \forall \text{关于} \mathscr G \text{可测的有界随机变量} \xi . \\ \end{aligned}\]

定义 \[\begin{aligned} E(Y|X) =& E(Y | \sigma(X)), \\ E(Y|X_1, \dots, X_n) =& E(Y | \sigma(X_1, \dots, X_n)), \\ E(Y | X_i, i \in I) =& E(Y | \sigma(X_i, i \in I)) , \end{aligned}\] 在离散和连续型两种情形下的\(E(Y|X)\)定义与此定义等价。 当\(E(Y^2) < \infty\)时, \(E(Y|X_1, \dots, X_n)\)是用\((X_1, \dots, X_n)\)的函数对\(Y\)进行逼近时, 在均方误差最小准则下的最佳逼近。

\(\{X_t, t \in T \}\)是一族随机变量, 定义 \[ E(Y | X_t, t \in T) = E [Y | \sigma(\{X_t, t \in T \})] . \] ::: {.example #prob-indce-cesig-cpce} 分析条件期望与条件概率的关系。 :::

: 考虑\(E(I_A | I_B)\), 这是\(I_B\)的函数, 当\(I_B=1\)时,即\(B\)发生, 有 \[ E(I_A | I_B=1) = E(I_A | B) = P(A|B); \]\(I_B = 0\)时, 即\(B^c\)发生, 有 \[ E(I_A | I_B=0) = E(I_A | B^c) = P(A|B^c) , \] 于是作为\(I_B\)的函数,有 \[\begin{aligned} E(I_A | I_B) =& E(I_A | I_B=1) I_B + E(I_A | I_B=0) I_{B^c} \\ =& P(A|B) I_B + P(A|B^c) I_{B^c} . \end{aligned}\] 所以关于随机变量或者\(\sigma\)代数的数学期望也是一个随机变量, 在这个例子中同时考虑了\(B\)发生与\(B\)不发生两种情况。 初等概率论中的条件概率或者条件期望是给定某种情况下的条件概率值或者条件期望值, 是非随机的。

○○○○○○

定理1.22 \(X, Y\)是一阶矩有限的随机变量, \(a, b\)为实数, 条件期望有如下基本性质:

(1) (全期望公式): \[ E \{ E[X|{\mathscr{G}}] \} = E[X] . \]

(2) 若\(X\)关于\({\mathscr{G}}\)可测, 则\(E[X | {\mathscr{G}}]=X\),a.s.

(3)} 若\(X\)\(\mathscr G\)相互独立(即\(\sigma(X)\)\(\mathscr{G}\)相互独立), 则有\(E[X|{\mathscr G}]=E[X]\), a.s.

(4) 设\(\mathscr G=\{\emptyset,\Omega\}\), 则\(E[X|{\mathscr{G}}]=E[X]\), a.s.

(5) \(E[X|{\mathscr G}] = E[X^{+} | {\mathscr{G}}] - E[X^{-} | {\mathscr G}]\), a.s.

(6) (保序):若\(X \leq Y\), a.s., 则\(E[X | {\mathscr G}] \leq E[Y | {\mathscr G}]\), a.s.

(7) (线性): \[ E[ a X + b Y | {\mathscr G}] = a E[X | {\mathscr G}] + b E[Y | {\mathscr {G}}], \text{ a.s.} \]

(8) \(|E[X | {\mathscr G}]| \leq E[ |X| \;|\,{\mathscr G}]\), a.s.

(9) (单调收敛定理):设\(0 \leq X_n \uparrow X\), a.s., 则\(E[X_n | {\mathscr {G}}] \uparrow E[X | {\mathscr G}]\), a.s.

(10) 设\(X\)\(XY\)的期望存在, 且\(Y\)\(\mathscr G\)可测, 则\(E[XY | {\mathscr G}] = Y E[X|{\mathscr G}]\), a.s.

(11) 若\({\mathscr G}_1\), \({\mathscr G}_2\)是两个子\(\sigma\)代数, 使得\({\mathscr G}_1 \subset {\mathscr G}_2 \subset {\mathscr F}\), 则 \[ E\{E[X|{\mathscr G}_2] \,|\, {\mathscr G}_1\} = E\{E[X|{\mathscr G}_1] \,|\, {\mathscr G}_2\} = E[X | {\mathscr{G}}_1], \text{ a.s.} \] (12)  若\(X,Y\)是两个独立的随机变量(或随机向量), 函数\(g(x,y)\)使得\(E[|g(X,Y)|]<\infty\),令 \[ h(y) = E[g(X, y)], \] 则有 \[ E[g(X,Y) | Y] = h(Y) = E[g(X,y)]|_{y=Y}, \text{ a.s.} \]

(13) (条件Jensen不等式) 设\(g(x)\)为凸函数,则\(E[g(X) | \mathscr G] \geq g[E(X | \mathscr G)]\)

推论1.5 \(E(X^2) < \infty\), 则\(E(X^2 | \mathscr G) \geq [E(X | \mathscr G)]^2\)\(E[E(X | \mathscr G)]^2 < \infty\)

推论1.6 \(E(Y^2)<\infty\), 则对任意关于\(\mathscr G\)可测且满足\(E(\xi^2)<\infty\)的随机变量\(\xi\),都有 \[ E(Y - E[Y | \mathscr G])^2 \leq E(Y - \xi)^2 . \]

证明\[\begin{aligned} & E[Y - \xi]^2 = E[(Y - E[Y | \mathscr G]) + (E[Y | \mathscr G] - \xi) ]^2 \\ =& E(Y - E[Y | \mathscr G])^2 + E(E[Y | \mathscr G] - \xi)^2 \\ & + 2 E \left\{ (Y - E[Y | \mathscr G]) (E[Y | \mathscr G] - \xi) \right\} , \end{aligned}\] 其中交叉项 \[\begin{aligned} & E \left\{ (Y - E[Y | \mathscr G]) (E[Y | \mathscr G] - \xi) \right\} \\ =& E \left[ E \left\{ (Y - E[Y | \mathscr G]) (E[Y | \mathscr G] - \xi) \;|\; \mathscr G \right\} \right] \\ =& E \left[ (E[Y | \mathscr G] - \xi) \; E \left\{ (Y - E[Y | \mathscr G]) \;|\; \mathscr G \right\} \right] \\ =& E \left[ (E[Y | \mathscr G] - \xi) \; 0 \right] = 0 , \end{aligned}\] 结论得证。

○○○○○○

1.6 补充内容

1.6.1 取帽子问题

求例1.9\(X\)的概率分布。

例1.18 \(n\)个人的帽子混在一起后随机无放回抽取, 求至少有一个人拿对自己的帽子的概率, 并计算没有人取对自己帽子的概率。

: 利用Jordan公式。 把帽子编号\(1,2,\dots, n\), 第\(i\)个人在第\(i\)次抽取。 设\(A_i\)表示第\(i\)个人取对帽子的事件, 要求\(P(B)=P(\bigcup\limits_{i=1}^n A_i)\)。 给定\(k\)后所有\(P(A_{j_1} A_{j_2} \dots A_{j_k})\)相等, 只要计算\(P(A_1 A_2 \dots A_k)\)(\(k=1,2,\dots,n\))。 帽子取法有\(n!\)种等可能结果, 前\(k\)人都取对,其他人随意取,有\((n-k)!\)种取法。 由Jordan公式 \[\begin{aligned} P(B) =& \sum_{k=1}^n (-1)^{k-1} C_n^k P(A_1 A_2 \dots A_k) \\ =& \sum_{k=1}^n (-1)^{k-1} \frac{n!}{k!(n-k)!} \frac{(n-k)!}{n!} \\ =& \sum_{k=1}^n (-1)^{k-1} \frac{1}{k!}. \end{aligned}\] 于是 \[\begin{aligned} & P(\text{无人取对帽子}) = 1 - P(\text{至少一人取对帽子}) \\ =& 1 - \sum_{k=1}^n (-1)^{k-1} \frac{1}{k!} \\ =& \sum_{k=0}^n (-1)^k \frac{1}{k!} \end{aligned}\]

例1.19 \(n\)个人的帽子混在一起后随机无放回抽取, 求恰有\(k\)个人拿对自己帽子的概率。

: 用\(A_n(k)\)表示\(n\)个人依次在编号为\(1 \sim n\)的帽子中随机选取, 恰有\(k\)人取对的取法数,则 \[\begin{aligned} & A_n(k) = C_n^k \cdot A_{n-k}(0), \\ & P(n \text{个人中恰有} k \text{人取对}) = \frac{A_n(k)}{n!} \\ =& \frac{1}{k!} \cdot \frac{A_{n-k}(0)}{(n-k)!} \\ =& \frac{1}{k!} P(n-k \text{个人取} n-k \text{顶帽子都不匹配}) \\ =& \frac{1}{k!} \sum_{k=0}^{n-k} (-1)^j \frac{1}{j!} =\sum_{k=0}^{n-k} (-1)^j \frac{1}{k! j!} , \ k=0,1,\dots, n . \end{aligned}\]

\(X\)表示取对帽子的人数, 虽然有了上述概率分布, 计算\(E(X)\)\(\text{Var}(X)\)仍比较复杂。

○○○○○○

1.6.2 正态分布各阶矩

直接用积分来计算标准正态分布的各阶矩。 当\(k\)为奇数时, \[ E(X^k) = \int_{-\infty}^\infty x^k \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2} x^2} \,dx \] 是可积的且被积函数为奇函数, 所以期望等于0。

\(k\)为偶数时, 作积分变量替换\(t = \frac{1}{2} x^2\), \(x = 2^{1/2} t^{1/2}\), 则 \[\begin{aligned} E(X^k) =& 2 \int_0^\infty x^k \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2} x^2} \,dx \\ =& \frac{2}{\sqrt{2\pi}} \int_0^\infty 2^{k/2} t^{k/2} e^t 2^{1/2} \frac{1}{2} t^{-1/2} \,dt \\ =& \frac{1}{\sqrt{\pi}} 2^{k/2} \int_0^\infty t^{\frac{k+1}{2} - 1} e^t \,dt \\ =& \frac{1}{\sqrt{\pi}} 2^{k/2} \Gamma(\frac{k+1}{2}) = \frac{1}{\sqrt{\pi}} 2^{k/2} \frac{k-1}{2} \Gamma(\frac{k-1}{2}) \\ =& \frac{1}{\sqrt{\pi}} 2^{k/2} \frac{k-1}{2} \frac{k-3}{2} \cdots \frac{3}{2} \frac{1}{2} \Gamma(\frac{1}{2}) \\ =& \frac{1}{\sqrt{\pi}} 2^{k/2} 2^{-k/2} (k-1)(k-3)\cdots 3 \cdot 1 \cdot \sqrt{\pi} \\ =& (k-1)!! . \end{aligned}\]

这里利用了\(\Gamma(x+1) = x \Gamma(x)\), \(\forall x > 0\)\(\Gamma(\frac{1}{2}) = \sqrt{\pi}\)

另外,可以计算 \[\begin{aligned} E|X| =& \frac{2}{\sqrt{2\pi}} \int_0^\infty x e^{-\frac{1}{2} x^2} \,dx \\ =& \frac{2}{\sqrt{2\pi}} \int_0^\infty 2^{1/2} t^{1/2} e^{-t} 2^{1/2} \frac{1}{2} t^{-1/2} \,dt \\ =& \frac{2}{\sqrt{2\pi}} \int_0^\infty e^{-t} \,dt \\ =& \sqrt{\frac{2}{\pi}} . \end{aligned}\]

○○○○○○

1.6.3 随机元和弱收敛

\(X\)是概率空间\((\Omega, \mathscr F, P)\)到可测空间\((S, \mathscr B(S))\)的可测函数, 称为随机元。 \(X\)导出了\(S\)中的测度\(Q(A) = P(X^{-1}(A))\)

\((S, \rho)\)是距离空间, \(\mathscr B(S)\)是其中的开集张成的\(\sigma\)代数, 若\(Q_n\)\(Q\)\((S, \mathscr B(S))\)中的概率测度, 满足 \[ \lim_{n\to\infty} \int_S g(s) \,dQ_n(s) = \int_S g(s) \,dQ(s) \] 对任意定义在\(S\)上的实值连续有界函数\(g\)成立, 则称\(Q_n\)弱收敛到\(Q\)

\(P(X_n^{-1}(\cdot))\)弱收敛到\(P(X^{-1}(\cdot))\), 则称\(X_n\)或依分布收敛到\(X\)\(X_n\)也可以定义在不同的概率空间中。

连续变换可以保持依分布收敛性。

\(S = \mathbb R^n\)时, 依分布收敛当且仅当特征函数点点收敛。

1.6.4 Lebesgue积分

对概率空间\((\Omega, \mathscr F, P)\)上的非负随机变量\(X\), 定义 取\(0 = y_0 < y_1 < \dots < y_n\), 当\(n \to \infty\)\(y_n \to \infty\), 且\(\max_{1 \leq k \leq n} (y_k - y_{k-1}) \to 0\), 则 \[ \lim_{n \to \infty} \sum_{k=1}^n y_{k-1} P(y_{k-1} < X \leq y_k) \] 存在且不依赖于\(\{y_k\}\)的选取, 定义此极限为 \[ \int_{\Omega} X(\omega) dP(\omega) . \] 称这样的积分为Legesgue积分。 定义 \[ E(X) = \int_{\Omega} X(\omega) dP(\omega) . \]

对一般的随机变量\(X\), 令 \[ X^+ = \max(X, 0), \quad X^- = \max(-X, 0), \]\(X = X^+ - X^-\), 若\(\int_{\Omega} X^+(\omega) dP(\omega)\)\(\int_{\Omega} X^-(\omega) dP(\omega)\)至少有一个为有限值, 则定义 \[ E(X) = \int_{\Omega} X(\omega) dP(\omega) = \int_{\Omega} X^+(\omega) dP(\omega) - \int_{\Omega} X^-(\omega) dP(\omega) = E(X^+) - E(X^-) . \]

考虑\((\mathbb R, \mathscr B(\mathbb R))\), 可以定义关于\(A \in \mathscr B(\mathbb R)\)的函数\(L(A)\)满足 \[\begin{aligned} (1)&\ L(A) \geq 0; \\ (2)&\ L([a,b]) = b-a, \ -\infty < a < b < \infty; \\ (3)&\ \text{对互不相交的} A_n \in \mathscr B(\mathbb R), \text{有} \\ &\quad L(\bigcup_{n=1}^\infty A_n) = \sum_{n=1}^\infty L(A_n) , \end{aligned}\]\(L(\cdot)\)为Lebegue测度。

\((\mathbb R, \mathscr B(\mathbb R))\), 若函数\(g(x)\)满足 \[ \{x: g(x) \leq y \} \in \mathscr B(\mathbb R), \ \forall y \in \mathbb R, \]\(g(x)\)是Borel可测函数。 对Borel可测函数\(g(x)\), 可类似定义\(\int_{\mathbb R} g(x) dL(x)\), 称为Lebesgue积分。 当\(g(x)\)黎曼可积时必Lebesgue可积, 而且积分相等, 所以将Lebesgue积分也记成 \[ \int_{-\infty}^\infty g(x) \,dx . \] 区间上的Lebesgue积分可类似定义, 也可以定义成 \[ \int_a^b g(x) \,dx = \int_{\mathbb R} g(x) I_{[a,b]}(x) \,dL(x) . \]

关于Lebesgue积分的性质, 可参见数学期望的性质。

1.6.5 测度变换

同一个随机变量在不同的概率测度下的分布不同, 期望不同。

例1.20 考虑测度空间\(([0,1], \mathscr B([0,1]))\)。 定义随机变量\(X\)\[ X(\omega) = \omega, \ \forall \omega \in [0, 1] . \]

定义概率测度 \[ P([a,b]) = b - a. \] 这个概率测度对\([0,1]\)中的随机结果是等可能看待的。

定义正值随机变量 \[ Z(\omega) = 2 \omega, \ \forall \omega \in [0, 1] . \] 易见\(E(Z) = 1\)。 把\(Z\)的取值看成是另一个测度\(Q(\cdot)\)相对于\(P(\cdot)\)对于\([0,1]\)中不同随机结果的概率大小的看法, 定义概率测度\(Q(\cdot)\)\[ Q([a,b]) = \int_a^b Z(\omega) \, d\omega . \]\[ Q([a,b]) = \int_a^b 2 \omega \,d\omega = b^2 - a^2 = (b+a)(b-a), \]\(a, b\)在1附近时,\(Q([a,b]) > P([a,b])\); 当\(a, b\)在0附近时,\(Q([a,b]) < P([a,b])\), 即\(Q(\cdot)\)给1附近的随机结果赋了更大的概率值。

考虑\(X\)\(Q\)下的分布。 \(X\)的定义并不随\(P, Q\)变化, 在均匀的\(P\)测度下, \(X\)是均匀的; 但是,在\(Q\)测度下, \(1\)附近的取值概率更大, 就会使得\(X\)在1附近的密度更大。 实际上,\(X\)\(Q\)下的分布函数和分布密度分别为 \[\begin{aligned} F^Q(x) =& Q(\{\omega: X(\omega) \leq x \}) = Q(\{\omega: \omega \leq x \}) \\ =& Q([0, x]) = \int_0^x Z(\omega) \,d\omega \\ =& \int_0^x 2\omega \,d\omega = x^2, \ x \in [0, 1] .\\ f^Q(x) =& \frac{d}{dx}F^Q(x) = 2 x, \ x \in [0, 1] . \end{aligned}\] 所以\(X\)\(Q(\cdot)\)下的密度在1附近更大。

再来考虑\(X\)\(Q\)下的期望(记作\(E^Q(X)\))。 \[\begin{aligned} E^Q(X) =& \int_0^1 x f^Q(x) \,dx \\ =& \int_0^1 x \, 2x \, dx = \frac{2}{3} . \end{aligned}\] 注意 \[ E(XZ) = \int_0^1 x \, 2x \, dx , \] 可见 \[ E^Q(X) = E(X Z), \] 这是一般结论。

○○○○○○

定理1.23 \((\Omega, \mathscr F, P)\)为概率空间, 随机变量\(Z \geq 0\), a.s., 且\(E(Z)=1\), 定义 \[\begin{align} Q(A) = \int_A Z(\omega) \,dP(\omega) = \int_{\omega} Z(\omega) I_A(\omega) \,dP(\omega) = E(Z I_A), \tag{1.3} \end{align}\]\(Q(\cdot)\)\((\Omega, \mathscr F)\)上的概率测度, 如果\(X\)是非负随机变量, 则有 \[\begin{align} E^Q(X) = \int_{\omega} X(\omega) \,dQ(\omega) = E(X Z) = \int_{\omega} X(\omega) Z(\omega) \,dP(\omega) . \tag{1.4} \end{align}\] 如果\(Z > 0\), a.s., 则对任意非负随机变量\(Y\)\[\begin{align} E(Y) = E^Q(\frac{Y}{Z}) . \tag{1.5} \end{align}\]

这里\(E^Q(X)\)定义为\(\int_{\omega} X(\omega) \,dQ(\omega)\)

如果\(X\)(或者\(Y\))不是非负的, 但是(1.4)(或者(1.5))两边之一存在, 则(1.4)(或者(1.5))仍成立。

证明略, 参见(Shreve 2004)定理1.6.1。

定义1.19 \(P\)\(Q\)是测度空间\((\Omega, \mathscr F)\)上的两个概率测度, 如果 \[ P(A) = 0 \iff Q(A) = 0, \ \forall A \in \mathscr F, \] 称这两个概率测度等价。

定理1.24 \((\Omega, \mathscr F, P)\)为概率空间, 随机变量\(Z > 0\), a.s., 且\(E(Z)=1\), 定义 \[\begin{align} Q(A) = \int_A Z(\omega) \,dP(\omega) = E(Z I_A), \tag{1.6} \end{align}\]\(Q\)是与\(P\)等价的概率测度。

定理1.25 \(P\)\(Q\)是测度空间\((\Omega, \mathscr F)\)上的两个等价的概率测度, 则必存在几乎必然为正的随机变量\(Z\),满足\(E(Z)=1\),使得 \[ Q(A) = \int_A Z(\omega) \,dP(\omega) , \ \forall A \in \mathscr F , \]\(Z\)\(Q\)\(P\)的Radon-Nikodym导数, 记为 \[ \frac{d Q}{d P}(\omega) . \]

在金融建模中经常利用测度变换。 \(P\)表示真实世界的概率模型, 而\(Q\)表示风险中性世界的概率模型, 两者等价, 且可以通过正值随机变量\(Z\)将两个测度联系起来。 因为等价性, 在两个不同世界其中之一几乎必然成立的事件, 在另一个世界也是几乎必然成立的。

例1.21 \(X\)\((\Omega, \mathscr F, P)\)中的标准正态分布随机变量。 令 \[ Y = X + \theta, \]\(Y\)\((\Omega, \mathscr F, P)\)\(\text{N}(\theta, 1)\)随机变量。 求测度变换\(Q\)使得\(Y\)\((\Omega, \mathscr F, Q)\)中服从标准正态分布。

: 不妨设\(\theta > 0\)。 取 \[ Z = \exp\{ -\theta X - \frac{1}{2} \theta^2 \}, \]\(Z\)\((\Omega, \mathscr F, P)\)中取正值的随机变量, \[ E(Z) = e^{- \frac{1}{2} \theta^2} E e^{-\theta X} = 1 . \]\[ Q(A) = \int_A Z(\omega) \,dP(\omega), \]\(Q\)是与\(P\)等价的测度, \(Z = \frac{dQ}{dP}\), 随机变量\(Y\)\((\Omega, \mathscr F, Q)\)中的矩母函数为 \[\begin{aligned} E^Q(e^{t Y}) =& E(Z e^{t(X + \theta)}) = E\exp\{ -\theta X - \frac{1}{2} \theta^2 + t X + t \theta \} \\ =& \exp\{ - \frac{1}{2} \theta^2 + t \theta \} E \exp\{ (t-\theta) X \} \\ =& \exp\{ - \frac{1}{2} \theta^2 + t \theta \} \exp\{ \frac{1}{2} (t-\theta)^2 \} \\ =& e^{\frac{1}{2} t^2}, \end{aligned}\]\(Y\)\(Q\)概率测度下服从标准正态分布。

○○○○○○

参考文献

Shreve, Steven E. 2004. Stochastic Calculus for Finance II Continuous Time Models. Springer.
刘勇. 2022. 应用随机分析. https://www.math.pku.edu.cn/teachers/liuyong/asa/lectnote22.pdf.
王寿仁. 1997. 概率论基础和随机过程. 科学出版社.