1 向量和矩阵
多元分析中用到很多向量和矩阵表示。 R软件提供了很好的向量和矩阵运算支持。
1.1 向量和矩阵的基本性质
1.1.1 向量
- 向量\(\boldsymbol x = (x_1, \dots, x_n)^T\).
- 向量加法;向量数乘;向量线性组合。
- 向量内积: \(\boldsymbol x^T \boldsymbol y = \sum_{i=1}^n x_i y_i\).
- 向量正交:内积等于0。
- 向量欧式模: \(\|\boldsymbol x\| = \sqrt{\boldsymbol x^T \boldsymbol x} = \sqrt{\sum_{i=1}^n x_i^2}\).
- 0向量\(\boldsymbol 0\),1向量\(\boldsymbol 1_n\).
1.1.2 矩阵
- 矩阵\(A, B, C\), \(A = (a_{ij})_{n \times p}\), \(a_{ij}\)称为第\(i\)行第\(j\)列元素;
- 列向量\(\boldsymbol x\), \(\boldsymbol y\), 行向量\(\boldsymbol x^T\), \(\boldsymbol y^T\);
- 单位阵\(I_n\),对角矩阵\(\text{diag}(a_1, a_2, \dots, a_n)\), 上三角阵A(\(a_{ij}=0\)对\(i>j\)), 下三角阵(\(a_{ij}=0\)对\(i<j\)), 对称阵(\(A^T = A\),\(a_{ij}=a_{ji}\));
- 0矩阵\(\boldsymbol 0\), 1矩阵\(\boldsymbol 1 \boldsymbol 1^T\);
- 幂等矩阵\(A A = A\);
- 正交阵\(A^T A = A A^T = I_n\).
1.1.3 张量
矩阵\(A = (a_{ij})_{n \times p}\)可以看成是有两个下标\((i, j)\)访问其元素的存储单位。 将此概念扩充为\(A = (a_{ijk})_{n \times p \times m}\), 其中\(i=1,\dots, n\), \(j = 1, \dots, p\), \(k = 1, \dots, m\), 元素用三个下标访问, 称\(A\)为张量(tensor)。 可以将\(A\)看成给定\(k\)之后的\(n \times p\)矩阵, 共有\(m\)个这样的矩阵; 也可以将\(A\)看成是给定\(i\)之后的\(p \times m\)矩阵, 共有\(n\)个这样的矩阵。
在R语言中张量可保存为多维数组(array)。
1.1.4 矩阵运算
- 矩阵转置\(A^T\);
- 矩阵加减法\(A+B\), \(A-B\);
- 矩阵数乘\(\lambda A\);
- 矩阵乘法\(A B\);
- 加法交换律:\(A + B = B + A\);
- 分配律:左乘分配律\(A(B+C) = AB + AC\), 右乘\((B+C)A = BA + CA\);
- 乘法结合律:\(A(BC) = (AB)C\);
- \((A^T)^T = A\);
- \((AB)^T = B^T A^T\).
1.1.5 秩
\(n \times p\)矩阵\(A\)的\(p\)个列, 每一列是一个\(n\)维向量, 称为\(A\)的\(p\)个列向量。 \(A\)的\(n\)个行, 每一行是一个\(p\)维向量, 称为\(A\)的\(n\)个行向量。
设\(\boldsymbol \alpha_1, \dots, \boldsymbol \alpha_n\)是\(p\)个\(n\)维向量。 如果存在不全为零的实数\(a_1, a_2, \dots, a_n\)使得\(a_1 \boldsymbol \alpha_1 + \dots + a_n \boldsymbol \alpha_n = \boldsymbol 0\), 则称\(\boldsymbol \alpha_1, \dots, \boldsymbol \alpha_n\)为线性相关的向量组, 否则称其为线性无关的向量组。
考虑向量组\(\boldsymbol \alpha_1, \dots, \boldsymbol \alpha_n\)的子集中满足线性无关的子集, 这样的子集中元素个数最大的一个称为这个向量组的最大线性无关组, 元素个数称为这个向量组的秩。 由\(n\)维向量组成的向量组, 秩小于等于\(n\)。
矩阵秩(rank):\(\text{rank}(A)\)是列向量的最大线性无关组的向量个数, 也等于行向量的最大线性无关组的向量个数。
对方阵\(A\),如果秩等于矩阵阶数则称矩阵满秩。 满秩当且仅当行列式\(\text{det}(A) \neq 0\)。
对\(A_{n\times p}\), 若\(n \geq p\)且\(\text{rank}(A)=p\)称\(A\)列满秩, 若\(n \leq p\)且\(\text{rank}(A)=n\)称\(A\)行满秩。
对\(n\times p\)矩阵\(A\)和\(p \times n\)矩阵\(B\), 有
\[\begin{aligned} \text{rank}(A) \leq& \min(n,p); \\ \text{rank}(A) \geq 0; \\ \text{rank}(A) =& \text{rank}(A^T); \\ \text{rank}(A^T A) =& \text{rank}(A); \\ \text{rank}(A+B) \leq& \text{rank}(A) + \text{rank}(B); \\ \text{rank}(AB) \leq& \min\big\{ \text{rank}(A), \; \text{rank}(B) \big\} . \end{aligned}\]
若\(A\), \(C\)为满秩方阵,则
\[\begin{aligned} \text{rank}(ABC) = \text{rank}(B) . \end{aligned}\]
1.1.6 迹
对\(n\)阶方阵\(A\),迹\(\text{trace}(A) = \sum_{i=1}^n a_{ii}\)。
对\(n\times n\)方阵\(A\), \(B\)和实数\(c\), 有
\[\begin{aligned} \text{tr}(A+B) =& \text{tr}(A) + \text{tr}(B), \\ \text{tr}(c A) =& c\, \text{tr}(A) . \end{aligned}\]
当\(AB\)和\(BA\)有意义时,
\[\begin{aligned} \text{tr}(A B) =& \text{tr}(B A) . \end{aligned}\]
当\(ABC\), \(BCA\), \(CAB\)有意义时,
\[\begin{aligned} \text{tr}(A B C) =& \text{tr}(C A B) = \text{tr}(B C A) . \end{aligned}\]
设\(A\),\(B\)都是\(n \times m\)矩阵, 则 \[ \text{tr}(A^T B) = \sum_{i=1}^n \sum_{j=1}^m a_{ij} b_{ij} . \]
若\(A\)为\(n \times m\)矩阵, \(B\)为\(m \times n\)矩阵, 则 \[ \text{tr}(AB) = \sum_{i=1}^n \sum_{j=1}^m a_{ij} b_{ji} . \]
1.1.7 行列式
对\(n\)阶方阵\(A\), 行列式 \[\begin{align*} \text{det}(A) = |A| = \sum_{\tau} (-1)^{|\tau|} a_{1 \tau(1)} \dots a_{n \tau(n)} \end{align*}\] 其中\(\tau\)是\(\{1,2,\dots, n\}\)的所有排列, 当\(\tau\)可通过偶数次交换得到时定义\(|\tau|=0\), 否则定义\(|\tau|=1\)。
注意\(|A|\)由\(n!\)项相加构成, 每一项是\(n\)个不同行、不同列元素的乘积。 如果将行列式看作\(A\)的\(n^2\)个元素到\(\mathbb R\)的一个\(n^2\)元函数, 则行列式是\(n\)阶齐次多项式。
性质:
- \(|A^T| = |A|\)。
- \(|AB| = |A| \cdot |B|\)。
- 对角阵的行列式等于主对角元素的乘积。
- 下三角阵和上三角阵的行列式等于主对角元素的乘积。
- 若矩阵\(A\)的第\(i\)行的元素有公因子\(c\), 则\(|A| = c |B|\), \(B\)是将\(A\)的第\(i\)行除以\(c\)得到的矩阵。
- \(|c A| = c^n |A|\)。
- 对方阵\(A\),满秩当且仅当\(|A| \neq 0\)。
1.1.8 逆矩阵
当方阵\(A\)满秩(\(|A|\neq 0\))时, 存在逆矩阵\(A^{-1}\)满足
\[\begin{aligned} A^{-1} A = A A^{-1} = I_n . \end{aligned}\]
对\(n\)阶方阵\(A\), 令\(C=(c_{ij})_{n\times n}\)为\(n\)阶方阵, \(c_{ij}\)等于\(A\)的\((i,j)\)元素的代数余子式, 即\(A\)删去第\(i\)行以及第\(j\)列后的\(n-1\)阶方阵的行列式乘以 \((-1)^{i+j}\), 称\(C^T\)为\(A\)的伴随矩阵,记为\(\text{Adj}(A)\), 则\(A^{-1} = |A|^{-1} \text{Adj}(A)\)。 不论\(A\)是否可逆,均有 \[ A \; \text{Adj}(A) = \text{Adj}(A) \; A = |A| I_n . \]
逆矩阵性质:
\[\begin{aligned} (c A)^{-1} =& c^{-1} A^{-1} \quad(c\neq 0); \\ (A^{-1})^{-1} =& A ; \\ (A^T)^{-1} =& (A^{-1})^T \stackrel{\triangle}{=} A^{-T} ;\\ (A B)^{-1} =& B^{-1} A^{-1} ; \\ |A^{-1}| =& |A|^{-1} . \end{aligned}\]
1.1.8.1 四块求逆公式
设方阵\(A\)可逆,分块 \[\begin{aligned} A = \left(\begin{array}{cc} A_{11} & A_{12} \\ A_{21} & A_{22} \end{array}\right), \quad A^{-1} = \left(\begin{array}{cc} A^{11} & A^{12} \\ A^{21} & A^{22} \end{array}\right) . \end{aligned}\]
如果\(A_{11}\)是方阵, 则当下面用到的子矩阵逆存在时逆矩阵的各个分块可表示为: \[\begin{aligned} A^{11} =& ( A_{11} - A_{12} A_{22}^{-1} A_{21} )^{-1} \stackrel{\triangle}{=} ( A_{11\cdot 2} )^{-1} ; \\ A^{12} =& - (A_{11\cdot 2})^{-1} A_{12} A_{22}^{-1} ;\\ A^{21} =& - A_{22}^{-1} A_{21} (A_{11\cdot 2})^{-1} ;\\ A^{22} =& A_{22}^{-1} + A_{22}^{-1} A_{21} (A_{11\cdot 2})^{-1} A_{12} A_{22}^{-1} . \end{aligned}\]
当\(A_{22}\)可逆时 \(\text{det}(A) = \text{det}(A_{22}) \text{det}(A_{11\cdot 2})\)。 当\(A_{11}\)可逆时 \(\text{det}(A) = \text{det}(A_{11}) \text{det}(A_{22\cdot 1})\)。
利用四块求逆公式可以证明, 若\(A\)为\(n\)阶可逆方阵, \(\boldsymbol x\), \(\boldsymbol y\)为\(p\)维向量, 则 \[ (A - \boldsymbol x \boldsymbol y^T)^{-1} = A^{-1} + \frac{A^{-1} \boldsymbol x \boldsymbol y^T A^{-1}}{ 1 - \boldsymbol y^T A^{-1} \boldsymbol x} . \]
1.2 特征值分解
1.2.1 特征值
对\(p\)阶实数方阵\(A\), 若复数\(\lambda\)和实值向量\(\boldsymbol\gamma\)使得 \[\begin{aligned} A \boldsymbol\gamma = \lambda \boldsymbol\gamma, \end{aligned}\] 称\(\lambda\)是\(A\)的一个特征值, \(\boldsymbol\gamma\)是矩阵\(A\)对应于特征值\(\lambda\)的一个特征向量。 特征向量也可以取复数值。
注意\(A \boldsymbol\gamma = \lambda \boldsymbol\gamma\)等价于\((A - \lambda I_p) \boldsymbol\gamma = \boldsymbol 0\)存在非零解, 等价于\(|A - \lambda I_p| = 0\), 所以实数矩阵\(A\)的所有特征值是关于\(\lambda\)的多项式 \(|A - \lambda I_p|\)的\(p\)个根, 每个根\(\lambda_j\)有对应的特征向量。
性质:
- \(p\)阶方阵\(A\)有\(p\)个特征值(包括重根), 但是至多只有\(p\)个线性无关的特征向量。
- 若特征根\(\lambda_i\)是\(r_i\)重根, 对应于\(\lambda_i\)的线性无关特征向量至多有\(r_i\)个。
- 对应于不同特征值的特征向量必线性无关; 若\(p\)阶方阵\(A\)有\(p\)个互异特征根, 则\(A\)有\(p\)个线性无关特征向量。
- 对称矩阵\(A_{p\times p}\)的所有特征值都是实数, 且有\(p\)个线性无关特征向量。
- 幂等矩阵特征值只能在\(\{ 0, 1 \}\)中取值, 其秩和迹都等于非零特征值个数。
1.2.2 特征值分解
\(p \times p\)实对称方阵\(A\)有特征值分解 \[\begin{aligned} A = \Gamma \Lambda \Gamma^T = \sum_{j=1}^p \lambda_j \boldsymbol\gamma_j \boldsymbol\gamma_j^T, \end{aligned}\] 其中\(\Lambda\)是\(A\)的所有特征值\(\lambda_1, \lambda_2, \dots, \lambda_p\) 组成的对角阵, \(\Gamma\)是正交阵(\(\Gamma^T \Gamma = \Gamma \Gamma^T = I\))。 \(\boldsymbol\gamma_j\)是\(\Gamma\)的第\(j\)列, 是\(\lambda_j\)对应的单位特征向量, 满足 \[ A \boldsymbol\gamma_j = \lambda_j \boldsymbol\gamma_j, \quad\boldsymbol\gamma_j^T \boldsymbol\gamma_j = 1 . \]
如果在\(\lambda_1, \lambda_2, \dots, \lambda_p\) 中\(\lambda_1, \lambda_2, \dots, \lambda_k\)的绝对值较大而其它特征值绝对值很小, 可以把\(A\)近似成 \[\begin{aligned} A \approx \Gamma_{[:,1:k]} \Lambda \Gamma_{[:,1:k]}^T = \sum_{j=1}^k \lambda_j \boldsymbol\gamma_j \boldsymbol\gamma_j^T, \end{aligned}\] 其中\(\Gamma_{[:,1:k]}\)表示把\(\Gamma\)的前\(k\)列取出得到的\(p \times k\)子矩阵。 这说明\(A\)的值主要由较大特征值及其对应的特征向量决定。
设实对称矩阵\(A\)所有特征值为\(\lambda_1, \lambda_2, \dots, \lambda_p\), 记\(\Lambda = \text{diag}(\lambda_1, \lambda_2, \dots, \lambda_p)\), 则 \[\begin{align*} \text{det}(A) =& \text{det}(\Lambda) = \prod_{j=1}^p \lambda_j , \\ \text{tr}(A) =& \text{tr}(\Lambda) = \sum_{j=1}^p \lambda_j . \end{align*}\]
事实上,以上两式对复数方阵也成立。 见徐仲等《矩阵论简明教程》第二版,科学出版社,§1.1定理1.5。
1.2.3 矩阵的幂
设\(A\)为\(p\)阶实对称矩阵, 特征值为\(\lambda_1, \lambda_2, \dots, \lambda_p\), 有特征值分解\(A = \Gamma \Lambda \Gamma^T\)。
对实数\(\alpha\), 如果\(\lambda_i^{\alpha}, i=1,2,\dots,p\)有意义,则定义 \[\begin{align*} A^{\alpha} = \Gamma \Lambda^{\alpha} \Gamma^T, \end{align*}\] 其中\(\Lambda^{\alpha} = \text{diag}(\lambda_1^{\alpha}, \lambda_2^{\alpha}, \dots, \lambda_p^{\alpha})\)。
例如:
- \(A^2 = \Gamma \Lambda^2 \Gamma^T\), 对正整数\(k\)都有\(A^k = \Gamma \Lambda^k \Gamma^T\);
- 若\(A\)满秩,则\(A^{-1} = \Gamma \Lambda^{-1} \Gamma^T\); \(A^{-2} = \Gamma \Lambda^{-2} \Gamma^T\), 对正整数\(k\)都有\(A^{-k} = \Gamma \Lambda^{-k} \Gamma^T\);
- 若\(A\)正定,则所有特征值为正, 有\(A^{1/2} = \Gamma \Lambda^{1/2} \Gamma^T\), \(A^{1/2} A^{1/2} = A\); \(A^{-1/2} = \Gamma \Lambda^{-1/2} \Gamma^T\), \(A^{-1/2} A^{-1/2} = A^{-1}\), \(A^{-1/2} A^{1/2} = A^{1/2} A^{-1/2} = I\)。
1.3 奇异值分解
设\(A\)为\(n \times p\)矩阵, 其秩为\(0 < r \leq \min(n,p)\), 则存在正数\(\lambda_1 \geq \dots \geq \lambda_r > 0\), 称为\(A\)的奇异值, 和矩阵\(\Gamma_{n\times r}\), \(\Delta_{p \times r}\), 满足\(\Gamma^T \Gamma = I_r\), \(\Delta^T \Delta = I_r\), 使得 \[\begin{align} A = \Gamma \Lambda \Delta^T = \sum_{k=1}^r \lambda_k \boldsymbol \gamma_k \boldsymbol \delta_k^T, \tag{1.1} \end{align}\] 其中\(\Lambda = \text{diag}(\lambda_1, \dots, \lambda_r)\), \(\boldsymbol \gamma_k\)是\(\Gamma\)的第\(k\)列, 称为\(A\)的对应于奇异值\(\lambda_k\)的左奇异向量, \(\boldsymbol \delta_k\)是\(\Delta\)的第\(k\)列, 称为\(A\)的对应于奇异值\(\lambda_k\)的右奇异向量。
当\(A\)为对称方阵时, 奇异值\(\lambda_1, \dots, \lambda_r\)就是\(A\)的\(r\)个非零特征值, \(\boldsymbol\gamma_k = \boldsymbol\delta_k\)就是\(A\)的特征值\(\lambda_k\)对应的单位特征向量。
证明: 易见\(A^T A\)和\(A A^T\)都是对称半正定矩阵: \(\forall \boldsymbol x \in \mathbb R^p\), \[\begin{aligned} \boldsymbol x^T (A^T A) \boldsymbol x =& (A \boldsymbol x)^T (A \boldsymbol x) = \| A \boldsymbol x \|^2 \geq 0 . \end{aligned}\]
可以证明\(\text{rank}(A)=\text{rank}(A^T A)=\text{rank}(A A^T)\)。 \(A^TA\)和\(A A^T\)仅有非负特征值。
如果\(\lambda^2 > 0\)是\(A^T A\)的一个正特征值, \(\boldsymbol\delta \in \mathbb R^p\)是对应的单位特征向量,则 \[\begin{aligned} A^T A \boldsymbol\delta =& \lambda^2 \boldsymbol\delta, \\ A A^T A \boldsymbol\delta =& \lambda^2 A \boldsymbol\delta, \end{aligned}\] 这说明\(\lambda^2\)也是\(A A^T\)的特征值, \(A \boldsymbol\delta\)是对应的特征向量。
由于 \[\begin{aligned} \| A \boldsymbol \delta \|^2 =& \boldsymbol\delta^T A^T A \boldsymbol\delta = \lambda^2 \boldsymbol\delta^T \boldsymbol\delta = \lambda^2, \end{aligned}\] 所以\(\lambda^{-1} A\boldsymbol\delta\)是\(AA^T\)对应于正特征值\(\lambda\)的一个单位特征向量。
反之,如果 \[\begin{aligned} A A^T \boldsymbol\gamma = \lambda^2 \boldsymbol\gamma, \ (\lambda>0) \end{aligned}\] 则\(\lambda^{-1} A^T \boldsymbol\gamma\)是矩阵\(A^T A\)相应于正特征值\(\lambda^2\)的一个单位特征向量。
总之, \[\begin{align} \boldsymbol \delta:&\ A^T A \boldsymbol \delta = \lambda^2 \boldsymbol \delta \Longrightarrow \boldsymbol\gamma = \lambda^{-1} A\boldsymbol\delta :\ A A^T \boldsymbol\gamma = \lambda^2 \boldsymbol\gamma . \tag{1.2}\\ \boldsymbol\gamma :&\ A A^T \boldsymbol\gamma = \lambda^2 \boldsymbol\gamma \Longrightarrow \boldsymbol \delta = \lambda^{-1} A^T \boldsymbol\gamma :\ A^T A \boldsymbol \delta = \lambda^2 \boldsymbol \delta. \tag{1.3} \end{align}\]
\(p\)阶半正定阵\(A^T A\)有特征值分解 \[\begin{align} A^T A =& \tilde\Delta \left(\begin{array}{cc} \Lambda^2 & 0 \\ 0 & 0 \end{array}\right) \tilde\Delta^T, \tag{1.4} \end{align}\] \(\Lambda^2 = \text{diag}(\lambda_1^2, \dots, \lambda_r^2)\), \((\lambda_1^2, \dots, \lambda_r^2)\)是\(A^TA\)的所有正特征值(可能有重复), \(r = \text{rank}(A^TA) = \text{rank}(A) = \text{rank}(AA^T)\)。
\(\tilde\Delta = (\Delta \ \Delta_1)\), \(\tilde\Delta^T \tilde\Delta = I_p\), \(\Delta = (\boldsymbol\delta_1, \dots, \boldsymbol\delta_r)\), \(\boldsymbol\delta_i\)是\(A^TA\)对应于正特征值\(\lambda_i^2\)的单位特征向量 (\(i=1,2,\dots,r\)); \(\Delta_1 = (\boldsymbol\delta_{r+1}, \dots, \boldsymbol\delta_p)\), \((\boldsymbol\delta_{r+1}, \dots, \boldsymbol\delta_p)\)是\(A^T A\)的对应于特征值零的单位特征向量。
对\(i=r+1, \dots, p\)有 \[\begin{aligned} A^T A \boldsymbol\delta_i = 0, \end{aligned}\] 令\(\boldsymbol\beta_i = A \boldsymbol\delta_i\), \(i=r+1, \dots, p\), 则 \[\begin{aligned} \| \boldsymbol\beta_i \|^2 =& \boldsymbol\beta_i^T \boldsymbol\beta_i = \boldsymbol\delta_i^T A^T A \boldsymbol\delta_i = 0, \end{aligned}\] 即\(\boldsymbol\beta_i=0\), 从而 \[\begin{aligned} A \boldsymbol\delta_i =& 0, \ i=r+1,\dots, p, \end{aligned}\] 写成矩阵形式即 \[\begin{align} A \Delta_1 =& 0 . \tag{1.5} \end{align}\]
令 \[\begin{align} \boldsymbol\gamma_i =& \lambda_i^{-1} A \boldsymbol\delta_i, \ i=1,2,\dots,r , \tag{1.6} \end{align}\] 写成矩阵形式即 \[\begin{align} \Gamma =& (\boldsymbol\gamma_1, \boldsymbol\gamma_2, \dots, \boldsymbol\gamma_r) = A \Delta \Lambda^{-1}, \tag{1.7} \end{align}\] 于是对\(1 \leq i, j \leq r\), \[\begin{align} \boldsymbol\gamma_i^T \boldsymbol\gamma_j =& \lambda_i^{-1} \lambda_j^{-1} \boldsymbol\delta_i^T A^T A \boldsymbol\delta_j = \lambda_i^{-1} \lambda_j \boldsymbol\delta_i^T \boldsymbol\delta_j = \begin{cases} 1, & i=j, \\ 0, & i \neq j, \end{cases} \tag{1.8} \end{align}\] 写成矩阵形式即 \[\begin{align} \Gamma^T \Gamma =& I_r . \tag{1.9} \end{align}\]
由(1.7)的\(\Gamma = A \Delta \Lambda^{-1}\), 得 \[\begin{aligned} \Gamma \Lambda =& A \Delta, \end{aligned}\] 再注意到(1.5)式表明\(A \Delta_1 = 0\), 以及\(\tilde\Delta = (\Delta\ \Delta_1)\), 则可得 \[\begin{align} (\Gamma \Lambda \quad 0_{n\times(p-r)}) =& (A \Delta \quad A \Delta_1) = A \tilde\Delta, \tag{1.10} \end{align}\] 由上式以及\(\tilde\Delta \tilde\Delta^T = I_p\)得 \[\begin{align} A =& (\Gamma \Lambda \quad 0_{n\times(p-r)}) \tilde\Delta^T = (\Gamma \Lambda \quad 0_{n\times(p-r)}) \left(\begin{array}{c} \Delta^T \\ \Delta_1^T \end{array}\right) \nonumber\\ =& \Gamma \Lambda \Delta^T . \tag{1.11} \end{align}\] 证毕。
○○○○○○
设\(n \times p\)矩阵\(A\)秩为\(r\),则\(A\)有如下奇异值分解 \[\begin{align*} A = \Gamma \Lambda \Delta^T = \sum_{i=1}^r \lambda_i \boldsymbol\gamma_i \boldsymbol\delta_i^T, \end{align*}\] 其中\(\Lambda=\text{diag}(\lambda_1, \lambda_2, \dots, \lambda_r)\), \(\lambda_1^2, \dots, \lambda_r^2\)是\(A^T A\)的各个正特征值 (也是\(A A^T\)的各个正特征值,值可以有重复), \(\Gamma\)为\(n\times r\)阵,\(\Delta\)为\(p \times r\)阵, 满足\(\Gamma^T \Gamma = I_r\), \(\Delta^T \Delta = I_r\)。 \(\Gamma\)各列为\(A A^T\)的非零特征值对应的特征向量, \(\Delta\)各列为\(A^T A\)的非零特征值对应的特征向量。
如果在奇异值\(\lambda_1, \lambda_2, \dots, \lambda_r\) 中\(\lambda_1, \lambda_2, \dots, \lambda_k\) 较大而其它奇异值很小, 可以把\(A\)近似成 \[\begin{aligned} A \approx \Gamma_{[,1:k]} \Lambda \Delta_{[,1:k]}^T = \sum_{j=1}^k \lambda_j \boldsymbol\gamma_j \boldsymbol\delta_j^T, \end{aligned}\] 其中\(\Gamma_{[,1:k]}\)表示把\(\Gamma\)的前\(k\)列取出得到的\(n \times k\)子矩阵, \(\Delta_{[,1:k]}\)表示把\(\Delta\)的前\(k\)列取出得到的\(p \times k\)子矩阵。 这说明\(A\)的值主要由较大奇异值及其对应的特征向量决定。
由奇异值分解\(A = \sum_{i=1}^r \lambda_i \boldsymbol\gamma_i \boldsymbol\delta_i^T\)得 \[\begin{align*} A \boldsymbol\delta_j =& \sum_{i=1}^r \lambda_i \boldsymbol\gamma_i (\boldsymbol\delta_i^T \boldsymbol\delta_j) = \lambda_j \boldsymbol\gamma_j, \\ \boldsymbol\gamma_j =& \lambda_i^{-1} A \boldsymbol\delta_j, \\ A^T \boldsymbol\gamma_j =& \sum_{i=1}^r \lambda_i \boldsymbol\delta_i (\boldsymbol\gamma_i^T \boldsymbol\gamma_j) = \lambda_j \boldsymbol\delta_j, \\ \boldsymbol\delta_j =& \lambda_j^{-1} A^T \boldsymbol\gamma_j . \end{align*}\] 所以\(A^T A\)和\(AA^T\)的对应于正特征值\(\lambda_i\)的特征向量可以互相决定。
上述的奇异值分解是实用角度常用的分解方法。 从理论上讲, 还可以考虑\(A A^T\)和\(A^T A\)对应于0特征值的特征向量。 设\(A A^T\)对应于0特征值的相互正交的单位特征向量为\(\boldsymbol\gamma_j\), \(j=r+1, \dots, n\), 设\(A^T A\)对应于0特征值的相互正交的单位特征向量为\(\boldsymbol\delta_j\), \(j=r+1, \dots, p\), 令 \[\begin{aligned} \Gamma =& (\boldsymbol\gamma_1, \dots, \boldsymbol\gamma_r, \boldsymbol\gamma_{r+1}, \boldsymbol\gamma_{n})_{n \times n}, \\ \Delta =& (\boldsymbol\delta_1, \dots, \boldsymbol\delta_r, \boldsymbol\delta_{r+1}, \dots, \boldsymbol\delta_p)_{p\times p}, \\ \Lambda =& \begin{pmatrix} \text{diag}(\lambda_1, \dots, \lambda_r)_{r \times r} & \boldsymbol 0_{r \times (p-r)} \\ \boldsymbol 0_{(n-r) \times r} & \boldsymbol 0_{(n-r) \times (p-r)} \end{pmatrix}_{n \times p}, \end{aligned}\] 则有 \[\begin{align} A = \Gamma_{n \times n} \Lambda_{n \times p} \Delta_{p \times p}^T , \tag{1.12} \end{align}\] 其中\(\Gamma\)是\(n \times n\)正交阵, 每一列是\(A A^T\)的单位特征向量, 称为\(A\)的左奇异向量; \(\Delta\)是\(p \times p\)正交阵, 每一列是\(A^T A\)的单位特征向量, 称为\(A\)的右奇异向量。
在上面的推导中看到了\(A^T A\)和\(A A^T\)的特征值、特征向量的关系。 这可以推广到\(AB\)和\(BA\)的问题。
定理1.1 设\(A\)为\(n \times p\)实矩阵, \(B\)为\(p \times n\)实矩阵, 设\(AB\)和\(BA\)都不是零矩阵, 则\(AB\)和\(BA\)的特征值集合相同, 且特征值的重数相等。 若\(\lambda \neq 0\)是\(AB\)的特征值, \(\boldsymbol x\)是\(AB\)关于\(\lambda\)的特征向量, 则\(\boldsymbol y = B \boldsymbol x\)是\(BA\)关于\(\lambda\)的特征向量。
证明与本节前面关于\(A^T A\)和\(A A^T\)的讨论类似。
定理1.2 设\(\boldsymbol a, \boldsymbol b\)为\(n\)维非零实向量, 满足\(\boldsymbol b^T \boldsymbol a = 0\)。 则矩阵\(\boldsymbol a \boldsymbol b^T\)只有一个0特征值, 没有非零特征值。
证明: 对特征值0, 取特征向量为\(\boldsymbol a\), 则 \[ (\boldsymbol a \boldsymbol b^T) \boldsymbol a = \boldsymbol a (\boldsymbol b^T \boldsymbol a) = \boldsymbol 0 = 0 \cdot \boldsymbol a . \] 所以0是特征值,特征向量为\(\boldsymbol a\)。
我们用反证法证明非零特征值不可能存在。 如果存在特征值\(\lambda \neq 0\), 特征向量为\(\boldsymbol x\), 则 \[ \boldsymbol a \boldsymbol b^T \boldsymbol x = \lambda \boldsymbol x . \] 于是 \[ 0 = \boldsymbol b^T \boldsymbol a \boldsymbol b^T \boldsymbol x = \lambda \boldsymbol b^T \boldsymbol x, \] 由\(\lambda \neq 0\)推出\(\boldsymbol b^T \boldsymbol x = 0\)。 但是, \[ \boldsymbol x^T \boldsymbol a \boldsymbol b^T \boldsymbol x = \lambda \| \boldsymbol x \|^2, \] 左边的\(\boldsymbol b^T \boldsymbol x = 0\), 右边\(\lambda \| \boldsymbol x \|^2 > 0\), 矛盾,定理得证。
推论1.1 设\(A\)为\(n \times p\)实矩阵, \(B\)为\(q \times n\)实矩阵, \(\boldsymbol a\)为\(p\times 1\)向量, \(\boldsymbol b\)为\(q\times 1\)向量, 则 \[ \text{rank}(A \boldsymbol a \boldsymbol b^T B) \leq 1 . \] 若\(\lambda = \boldsymbol b^T B A \boldsymbol a \neq 0\), 则\(\lambda\)是\(A \boldsymbol a \boldsymbol b^T B\)的特征值, 特征向量为\(A \boldsymbol a\); 若\(\lambda = 0\), 则\(A \boldsymbol a \boldsymbol b^T B\)仅有0特征值。
证明: 矩阵乘积的秩小于等于相乘矩阵中秩最小的一个的秩, 所以 \[ \text{rank}(A \boldsymbol a \boldsymbol b^T B) \leq 1 . \]
记\(\boldsymbol \alpha = A \boldsymbol a\), \(\boldsymbol \beta = B^T \boldsymbol b\), 则 \[ A \boldsymbol a \boldsymbol b^T B = \boldsymbol \alpha \boldsymbol \beta^T, \quad \lambda = \boldsymbol b^T B A \boldsymbol a = \boldsymbol \beta^T \boldsymbol \alpha . \]
若\(\lambda \neq 0\), 则\(\boldsymbol \alpha \neq \boldsymbol 0\), \(\boldsymbol \beta \neq \boldsymbol 0\), \[ \boldsymbol \alpha \boldsymbol \beta^T \boldsymbol \alpha = (\boldsymbol \beta^T \boldsymbol \alpha) \boldsymbol \alpha = \lambda \boldsymbol \alpha . \] 即 \[ (A \boldsymbol a \boldsymbol b^T B) (A \boldsymbol a) = \lambda (A \boldsymbol a), \] 即\(\lambda\)是\(A \boldsymbol a \boldsymbol b^T B\)的非零特征值, \(A \boldsymbol a\)是对应的特征向量。
若\(\lambda = 0\), 则\(\boldsymbol \alpha \boldsymbol \beta^T\)仅有0特征值, 即\(A \boldsymbol a \boldsymbol b^T B\)仅有0特征值。
1.4 广义逆
1.4.1 减号逆
当\(A\)为满秩方阵时,有逆矩阵\(A^{-1}\), 线性方程组\(A \boldsymbol x = \boldsymbol b\)有唯一解\(\boldsymbol x = A^{-1} \boldsymbol b\)。 当\(A\)为不满秩的方阵或长方形\(n \times m\)矩阵时, \(A^{-1}\)不存在, 对逆矩阵的概念进行推广, 提出广义逆。
对\(n\times p\)矩阵\(A\), 若\(p \times n\)矩阵\(A^-\)使得 \[\begin{align*} A A^- A = A , \end{align*}\] 称\(A^-\)为\(A\)的广义逆,或称为减号逆。
例: 令 \[ A = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix} , \] 则\(A\)不可逆, 取\(A^- = A\), 有 \[ A A^- A = \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix} \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix} \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix} = A . \]
广义逆不要求\(A\)满秩, 也不要求\(A\)是方阵。
减号逆一般不唯一, 当\(A\)为可逆方阵时, 减号逆唯一且等于逆矩阵。
1.4.2 加号逆
最常用的广义逆是加号逆, 又称为Moore-Penrose广义逆。
定义1.1 (加号逆) 设\(A\)为\(n\times m\)矩阵, 若\(m \times n\)矩阵\(G\)满足 \[\begin{aligned} \text{i)} & AGA = A; \\ \text{ii)} & GAG = G; \\ \text{iii)} & (AG)^T = AG; \\ \text{iv)} & (GA)^T = GA \end{aligned}\] 则称矩阵\(G\)为矩阵\(A\)的加号逆或Moore-Penrose广义逆, 记作\(A^+\)。
显然,如果\(A\)本身就是\(n\)阶可逆方阵,则\(A^{-1}\)满足上述四个条件。
加号逆的一个等价定义是 \[ A^+ = \lim_{\alpha \downarrow 0} (A^T A + \alpha I)^{-1} A^T . \]
定理1.3 \(n \times m\)矩阵\(A\)的加号逆存在且唯一, 若\(A\)的奇异值分解为\(A = \Gamma \Lambda \Delta^T\), 其中\(\Lambda\)是\(A\)的\(r\)个奇异值组成的对角阵, 则\(A^+ = \Delta \Lambda^{-1} \Gamma^T\)。
证明: 若\(A\)不是零矩阵(所有元素都等于零的矩阵), 则\(A\)有奇异值分解\(A = \Gamma \Lambda \Delta^T\), 其中\(\Lambda = \text{diag}(\lambda_1, \dots, \lambda_r)\), \(\lambda_i > 0\), \(i=1,2,\dots,r\), \(r = \text{rank}(A)\), \(\Gamma^T \Gamma = I_r\), \(\Delta^T \Delta = I_r\)。 取\(G = \Delta \Lambda^{-1} \Gamma^T\), 则: \[\begin{aligned} \text{i)} & AGA = \Gamma \Lambda \Delta^T \Delta \Lambda^{-1} \Gamma^T \Gamma \Lambda \Delta^T = \Gamma \Lambda \Delta^T = A; \\ \text{ii)} & GAG = \Delta \Lambda^{-1} \Gamma^T \Gamma \Lambda \Delta^T \Delta \Lambda^{-1} \Gamma^T = \Delta \Lambda^{-1} \Gamma^T = G; \\ \text{iii)} & AG = \Gamma \Lambda \Delta^T \Delta \Lambda^{-1} \Gamma^T = \Gamma \Gamma^T \text{ 对称}; \\ \text{iv)} & GA = \Delta \Lambda^{-1} \Gamma^T \Gamma \Lambda \Delta^T = \Delta \Delta^T \text{ 对称} . \end{aligned}\]
所以\(G\)是\(A\)的加号逆。
当\(A\)为零矩阵时, \(m\times n\)的零矩阵是\(A\)的加号逆。
若\(A_1^+\)和\(A_2^+\)是\(n\times m\)矩阵\(A\)的两个加号逆, 则 \[\begin{aligned} & A_1^+ = A_1^+ A A_1^+ = A_1^+ (A A_1^+)^T = A_1^+ (A_1^+)^T (A)^T = A_1^+ (A_1^+)^T (A A_2^+ A)^T \\ =& A_1^+ (A_1^+)^T A^T (A A_2^+)^T = A_1^+ (A A_1^+)^T A A_2^+ = A_1^+ A A_1^+ A A_2^+ = A_1^+ A A_2^+ \\ =& (A_1^+ A)^T A_2^+ = A^T (A_1^+)^T A_2^+ = (A A_2^+ A)^T (A_1^+)^T A_2^+ = (A_2^+ A)^T A^T (A_1^+)^T A_2^+ \\ =& (A_2^+ A)^T(A_1^+ A)^T A_2^+ = A_2^+ A A_1^+ A A_2^+ = A_2^+ A A_2^+ = A_2^+ \end{aligned}\] 可见加号逆存在唯一。 证毕。
※※※※※
当\(A\)可逆时, \(A^+ = A^{-1}\)。
定理1.4 加号逆有如下的性质:
\[\begin{aligned} \text{i)}\,&\, (A^+)^+ = A; \\ \text{ii)}\,&\, (A^T)^+ = (A^+)^T; \\ \text{iii)}\,&\, (\lambda A)^+ = \lambda^{-1} A^+, \ \forall \lambda \neq 0;\\ \text{iv)}\,&\, \text{rank}(A^+) = \text{rank}(A) = \text{rank}(A A^+) = \text{rank}(A^+ A); \\ \text{v)}\,&\, (A^T A)^+ = A^+ (A^+)^T; \\ \text{vi)}\,&\, A^+ = (A^T A)^+ A^T = A^T (A A^T)^+, \ \text{从而若A列满秩则} A^+ = (A^T A)^{-1} A^T, \ \text{从而若A行满秩则} A^+ = A^T (A A^T)^{-1} ;\\ \text{vii)}\,&\, A A^+ \text{和} A^+ A \text{都是对称幂等矩阵}; \\ \text{viii)}\,&\, \text{若$A$是对称幂等矩阵,则 $A^+ = A$。} \end{aligned}\]
1.4.3 广义逆应用
定理1.5 (正交投影) 设\(A\)为\(n \times m\)矩阵, 则\(\mu(A) = \{ A \boldsymbol \beta: \boldsymbol \beta \in \mathbb R^m \}\)为\(\mathbb R^n\)的子空间。 \(\forall \boldsymbol y \in \mathbb R^n\), 令\(\hat{\boldsymbol y} = A A^+ \boldsymbol y\), \(\boldsymbol z = \boldsymbol y - \hat{\boldsymbol y}\), 则 \[\begin{aligned} \boldsymbol y =&\ \hat{\boldsymbol y} + \boldsymbol z, \\ & \hat{\boldsymbol y} \in \mu(A), \quad \boldsymbol z \perp \mu(A), \\ \| \boldsymbol y - \hat{\boldsymbol y} \| \leq&\ \| \boldsymbol y - A \boldsymbol x \|, \ \forall \boldsymbol \beta \in \mathbb R^m . \end{aligned}\]
即\(A A^+ \boldsymbol y\)是\(\boldsymbol y\)向子空间\(\mu(A)\)的正交投影。 \(\boldsymbol z \perp \mu(A)\)的定义是\(A^T \boldsymbol z = \boldsymbol 0\)。
定理1.6 \(\mathbb R^n\)的向量\(\boldsymbol y \in \mu(A)\)当且仅当\(A A^+ \boldsymbol y = \boldsymbol y\); \(\boldsymbol y \perp \mu(A)\)当且仅当\(A A^+ \boldsymbol y = \boldsymbol 0\)。
定理1.7 设\((A^T A)^-\)是\(A^T A\)的任意一个广义逆, 则 \[ A (A^T A)^- A^T = A A^+ . \]
因为\(A A^+\)是\(\mathbb R^p\)向\(\mu(A)\)子空间的正交投影阵, 所以\(A^T A\)的任意一个减号逆都可以用来构造\(\mathbb R^p\)向\(\mu(A)\)子空间的正交投影阵。
定理1.8 (线性方程组通解) 系数矩阵为\(n\times m\)矩阵的线性方程组\(A \boldsymbol x = \boldsymbol b\)有解的充分必要条件为 \[\begin{align} A A^+ \boldsymbol b = \boldsymbol b. \tag{1.13} \end{align}\] 在方程组有解时, 对\(A\)的任何一个减号逆\(A^-\), \(\boldsymbol x = A^- \boldsymbol b\)是方程组的解, 且方程组的通解为 \[\begin{align} \boldsymbol x = A^+ \boldsymbol b + (I - A^+ A) \boldsymbol y, \ \forall \boldsymbol y \in \mathbb R^m , \tag{1.14} \end{align}\] \(\boldsymbol x = A^+ \boldsymbol b\)是所有解中唯一的长度最小的解。
定理1.9 (线性最小二乘问题通解) 设\(X\)为\(n \times m\)矩阵(\(n > m\)), 则最小二乘问题 \[ \min_{\boldsymbol\beta \in \mathbb R^m} \| \boldsymbol y - X \boldsymbol\beta \|_2^2 \] 解存在, 所有的最小二乘解可以写成 \[\begin{align} \hat{\boldsymbol\beta} = X^+ \boldsymbol y + (I - X^+ X) \boldsymbol z, \ \forall \boldsymbol z \in \mathbb R^m. \tag{1.15} \end{align}\] 在这些最小二乘解中\(\boldsymbol\beta_0 = X^+ \boldsymbol y\)是唯一的长度最短的解。
1.5 二次型
1.5.1 概念
设\(A\)为\(p\times p\)实对称阵,对\(\boldsymbol x \in \mathbb R^p\)定义 \[\begin{aligned} Q(\boldsymbol x) = \boldsymbol x^T A \boldsymbol x = \sum_{i=1}^p \sum_{j=1}^p a_{ij} x_i x_j , \end{aligned}\] 这是\(p\)元的二次齐次多项式函数。
1.5.2 正定与半正定
如果\(\boldsymbol x\neq \boldsymbol 0\)则\(Q(\boldsymbol x)>0\), 称\(Q(\cdot)\)为正定二次型,\(A\)为正定阵。 如果\(\forall \boldsymbol x\)有\(Q(\boldsymbol x) \geq 0\), 称\(Q(\cdot)\)为半正定二次型(非负定二次型), \(A\)为半正定阵(非负定阵)。
设\(B\)是实值矩阵, 则\(B^T B\)和\(B B^T\)都是半正定阵。
\(A\)正定当且仅当所有特征值都为正; \(A\)半正定当且仅当所有特征值都非负。 正定矩阵必为满秩(可逆)矩阵,\(|A|>0\)。 半正定矩阵\(A\)为正定矩阵当且仅当\(A\)满秩。
设\(A\)为\(p\times p\)对称阵, 则\(A\)有特征值分解\(A = \Gamma \Lambda \Gamma^T\), 令\(\boldsymbol y = \Gamma^T \boldsymbol x\), 则 \[\begin{aligned} Q(\boldsymbol x) = \boldsymbol x^T A \boldsymbol x = \boldsymbol y^T \Lambda \boldsymbol y = \sum_{j=1}^p \lambda_j y_j^2 . \end{aligned}\]
1.5.3 最大值
定理1.10 设\(p \times p\)对称阵\(A\)的所有特征值为 \(\lambda_1 \geq \lambda_2 \geq \dots \geq \lambda_p\), 则 \[\begin{align} \max_{\boldsymbol x \in \mathbb R^p, \boldsymbol x^T \boldsymbol x=1} \boldsymbol x^T A \boldsymbol x = \lambda_1, \tag{1.16} \end{align}\] 最大值点为\(\lambda_1\)对应的单位特征向量; \[\begin{align} \min_{\boldsymbol x \in \mathbb R^p, \boldsymbol x^T \boldsymbol x=1} \boldsymbol x^T A \boldsymbol x = \lambda_p, \tag{1.17} \end{align}\] 最小值点为\(\lambda_p\)对应的单位特征向量。
或者表述为 \[\begin{aligned} \max_{\boldsymbol x \in \mathbb R^p, \boldsymbol x \neq \boldsymbol 0} \frac{\boldsymbol x^T A \boldsymbol x}{\boldsymbol x^T \boldsymbol x} = \lambda_1, \end{aligned}\] 最大值点为\(\lambda_1\)对应的单位特征向量; \[\begin{aligned} \min_{\boldsymbol x \in \mathbb R^p, \boldsymbol x \neq \boldsymbol 0} \frac{\boldsymbol x^T A \boldsymbol x}{\boldsymbol x^T \boldsymbol x} = \lambda_p, \end{aligned}\] 最小值点为\(\lambda_p\)对应的单位特征向量。
证明: 设\(A\)有特征值分解\(A = \Gamma \Lambda \Gamma^T\), 令\(\boldsymbol y = \boldsymbol x / \| \boldsymbol x \|\), 问题化为 \[\begin{aligned} \max_{\| \boldsymbol y \| = 1} \boldsymbol y^T A \boldsymbol y . \end{aligned}\]
令\(\boldsymbol z = \Gamma^T \boldsymbol y\), 则\(\| \boldsymbol z \| = 1\), \(\boldsymbol y = \Gamma \boldsymbol z\), 问题化为 \[\begin{aligned} \max_{\| \boldsymbol z \| = 1} \boldsymbol z^T \Lambda \boldsymbol z = \max_{\| \boldsymbol z \| = 1} \sum_{j=1}^p \lambda_j z_j^2, \end{aligned}\] 而 \[\begin{aligned} \sum_{j=1}^p \lambda_j z_j^2 \leq & \lambda_1 \sum_{j=1}^p z_j^2 = \lambda_1 \| \boldsymbol z \|^2 = \lambda_1, \end{aligned}\] 当\(\boldsymbol z = \boldsymbol e_1 = (1, 0, \dots, 0)^T\)时可以达到\(\lambda_1\), 所以最大值为\(\lambda_1\), 当\(\boldsymbol y = \Gamma \boldsymbol e_1 = \boldsymbol\gamma_1\)时达到, 当\(\boldsymbol x = c \boldsymbol\gamma_1\)时达到(\(c \neq 0\))。
如果限制\(\| \boldsymbol x \| = 1\), 则最大值\(\max_{\| \boldsymbol x \| = 1} \boldsymbol x^T A \boldsymbol x\)是\(A\)的最大特征值\(\lambda_1\), 当\(\boldsymbol x\)取\(\lambda_1\)对应的单位特征向量\(\boldsymbol\gamma_1\)时达到最大值。
※※※※※
定理1.11 设\(A\)为\(p \times p\)实对称阵, \(B\)为\(p \times p\)正定阵, \(B^{-1} A\)的所有特征值为 \(\lambda_1 \geq \lambda_2 \geq \dots \geq \lambda_p\), 则 \[\begin{align} \max_{\boldsymbol x \in \mathbb R^p} \frac{\boldsymbol x^T A \boldsymbol x}{\boldsymbol x^T B \boldsymbol x} = \lambda_1, \tag{1.18} \end{align}\] 最大值点为\(\lambda_1\)对应的\(B^{-1} A\)的单位特征向量; \[\begin{align} \min_{\boldsymbol x \in \mathbb R^p} \frac{\boldsymbol x^T A \boldsymbol x}{\boldsymbol x^T B \boldsymbol x} = \lambda_p, \tag{1.19} \end{align}\] 最小值点为\(B^{-1} A\)的\(\lambda_p\)对应的单位特征向量。
证明: 令\(\boldsymbol y = B^{1/2} \boldsymbol x\), \(\boldsymbol x = B^{-1/2} \boldsymbol y\), 问题化为 \[\begin{aligned} \max_{\boldsymbol x \neq 0} \frac{\boldsymbol x^T A \boldsymbol x}{\boldsymbol x^T B \boldsymbol x} = \max_{\boldsymbol y \neq 0} \frac{\boldsymbol y^T B^{-1/2} A B^{-1/2} \boldsymbol y}{\boldsymbol y^T \boldsymbol y}, \end{aligned}\] 其中\(B^{-1/2} A B^{-1/2}\)是对称阵, 设\(B^{-1/2} A B^{-1/2}\)的最大特征值为\(\lambda_1\), 最大特征向量为\(\boldsymbol\delta_1\), 则所求最大值为\(\lambda_1\), 当\(\boldsymbol x = B^{-1/2} \boldsymbol\delta_1\)时取到最大值。
设\(\lambda\)是对称阵\(B^{-1/2} A B^{-1/2}\)的任一个特征值, 特征向量为\(\boldsymbol\delta\),即 \[\begin{aligned} B^{-1/2} A B^{-1/2} \boldsymbol\delta =& \lambda \boldsymbol\delta, \end{aligned}\] 令\(\boldsymbol\gamma = B^{-1/2} \boldsymbol\delta\), 则 \[\begin{aligned} B^{-1/2} A \boldsymbol\gamma =& \lambda B^{1/2} \boldsymbol\gamma, \\ B^{-1} A \boldsymbol\gamma =& \lambda \boldsymbol\gamma, \end{aligned}\] 可见矩阵\(B^{-1/2} A B^{-1/2}\)和\(B^{-1} A\)有完全相同的特征值, 且\(B^{-1/2} A B^{-1/2}\)的特征向量为\(\boldsymbol\delta\)则\(B^{-1} A\)的特征向量则为 \(B^{-1/2}\boldsymbol\delta\)。 所以最大值点\(\boldsymbol x = B^{-1/2} \boldsymbol\delta_1\)也是\(B^{-1} A\)的最大特征值\(\lambda_1\) 对应的特征向量, 即最大值为\(B^{-1} A\)的最大特征值(\(A^{-1} B\)所有特征值都是实数), 当\(\boldsymbol x\)取\(B^{-1} A\)的最大特征值对应的特征向量时取到最大值。
○○○○○○
1.6 向量和矩阵的微分
1.6.1 关于向量的微分
对\(f : \mathbb R^p \rightarrow \mathbb R\), 记\(\frac{\partial f(\boldsymbol x)}{\partial \boldsymbol x}\) 为\(f\)的\(p\)个一阶偏导数组成的列向量, 称为\(f\)的梯度, 记一阶偏导数组成的行向量为 \(\frac{\partial f(\boldsymbol x)}{\partial \boldsymbol x^T}\)。
记\(\frac{\partial^2 f(\boldsymbol x)}{\partial \boldsymbol x \partial \boldsymbol x^T} = \left( \frac{\partial^2 f(\boldsymbol x)}{\partial x_i \partial x_j} \right)_{p \times p}\) 为\(f\)的二阶偏导数组成的\(p \times p\)矩阵, 称为\(f\)的海色阵(Hessian)。
设\(\boldsymbol a\)为\(p\)维列向量,\(A\)为\(p \times p\)对称阵, 则 \[\begin{equation} \begin{aligned} & \frac{\partial (\boldsymbol a^T \boldsymbol x )}{\partial \boldsymbol x} = \boldsymbol a, \quad \frac{\partial (\boldsymbol x^T \boldsymbol a )}{\partial \boldsymbol x} = \boldsymbol a, \\ & \frac{\partial (\boldsymbol x^T A \boldsymbol x)}{\partial \boldsymbol x} = 2 A \boldsymbol x, \\ & \frac{\partial^2 (\boldsymbol x^T A \boldsymbol x)}{\partial \boldsymbol x \partial \boldsymbol x^T} = 2 A . \end{aligned} \tag{1.20} \end{equation}\]
证明: \[ \boldsymbol a^T \boldsymbol x = \boldsymbol x^T \boldsymbol a = \sum_{i=1}^p a_i x_i, \] 所以\(\frac{\partial (\boldsymbol a^T \boldsymbol x )}{\partial x_i} = a_i\), 即前两式成立。
\[ \boldsymbol x^T A \boldsymbol x = \sum_{i=1}^p \sum_{j=1}^p a_{ij} x_i x_j = \sum_{i=1}^p a_{ii} x_i^2 + \sum_{i \neq j} a_{ij} x_i x_j, \tag{*} \] 在上式最后一项中包含对应于某个特定下标\(i\)的\(x_i\)的项有第\(i\)行的非对角元素和第\(i\)列的非对角元素,所以 \[\begin{aligned} \frac{\partial (\boldsymbol x^T A \boldsymbol x)}{\partial x_i} =& 2 a_{ii} x_i + \sum_{j=1}^p I_{\{j \neq i \}} a_{ij} x_j + \sum_{k=1}^p I_{\{ k \neq i \}} a_{ki} x_k \\ =& 2 a_{ii} x_i + 2 \sum_{j=1}^p I_{\{j \neq i \}} a_{ij} x_j \\ =& 2 \sum_{j=1}^p a_{ij} x_j, \end{aligned}\] 这恰好是\(2 A \boldsymbol x\)的第\(i\)元素。
再利用(*)式求二阶偏导数。 注意求和中\(i \neq q\)的项有包含\(a_{ij}\)和\(a_{ji}\)的两项,所以 \[\begin{aligned} \frac{\partial (\boldsymbol x^T A \boldsymbol x)}{\partial x_i^2} =& 2 a_{ii}, \\ \frac{\partial (\boldsymbol x^T A \boldsymbol x)}{\partial x_i \partial x_j} =& 2 a_{ij} \quad (i \neq j) . \end{aligned}\]
○○○○○○
1.6.2 关于矩阵的微分
设\(A(x)\),\(B(x)\)是矩阵值的函数, 定义 \[ \left( \frac{\partial A(x)}{\partial x} \right)_{ij} = \frac{\partial a_{ij}(x)}{\partial x}, \] 则 \[\begin{align} \frac{\partial (A(x) B(x))}{\partial x} = \frac{\partial A(x)} {\partial x} B(x) + A(x) \frac{\partial B(x)} {\partial x} . \tag{1.21} \end{align}\] 由此可得推论 \[\begin{align} \frac{\partial A^{-1}(x)} {\partial x} = - A^{-1}(x) \frac{\partial A(x)} {\partial x} A^{-1}(x) . \tag{1.22} \end{align}\]
设\(f(\boldsymbol X)\)是以矩阵\(\boldsymbol X = (x_{ij})_{m \times n}\)为自变量的实值函数, 关于各矩阵元素可导, 记\(\frac{\partial f(\boldsymbol X)}{\partial \boldsymbol X}\) 表示\(f\)关于每个元素\(x_{ij}\)的偏导数组成的矩阵, 即 \[ \left( \frac{\partial f(\boldsymbol X)}{\partial x_{ij}} \right)_{m \times n} . \]
性质:
对\(\boldsymbol X_{m\times n}\), \[\begin{align} & \frac{\partial f(\boldsymbol X)}{\partial \boldsymbol X^T} = \left( \frac{\partial f(\boldsymbol X)}{\partial \boldsymbol X} \right)^T . \tag{1.23} \end{align}\] 其中\(\frac{\partial f(\boldsymbol X)}{\partial \boldsymbol X^T}\)的含义是\(f(\boldsymbol X)\)关于\(\boldsymbol X^T\)的每一个元素求导。
对\(\boldsymbol X_{m\times n}\)和\(\boldsymbol A_{n \times m}\), \[\begin{align} & \frac{\partial \text{tr}(\boldsymbol X \boldsymbol A)}{\partial \boldsymbol X} = \frac{\partial \text{tr}(\boldsymbol A \boldsymbol X)}{\partial \boldsymbol X} = \boldsymbol A^T . \tag{1.24} \end{align}\] 对\(\boldsymbol X_{m\times n}\)和\(\boldsymbol A_{m \times n}\), \[\begin{align} & \frac{\partial \text{tr}(\boldsymbol X^T \boldsymbol A)}{\partial \boldsymbol X} = \frac{\partial \text{tr}(\boldsymbol A \boldsymbol X^T)}{\partial \boldsymbol X} = \boldsymbol A . \tag{1.25} \end{align}\]
来证明(1.25), 则(1.24)是(1.25)的推论。 事实上, \[ \text{tr}(\boldsymbol X^T \boldsymbol A) = \text{tr}(\boldsymbol A \boldsymbol X^T) = \sum_{i=1}^m \sum_{j=1}^n a_{ij} x_{ij}, \] 所以关于\(x_{ij}\)的一阶偏导数等于\(a_{ij}\), 结论得证。
○○○○○○
对\(\boldsymbol X_{m\times n}\), \(\boldsymbol A_{p\times m}\), \(\boldsymbol B_{n\times p}\), \[\begin{align} & \frac{\partial \text{tr}(\boldsymbol A \boldsymbol X \boldsymbol B)}{\partial \boldsymbol X} = \frac{\partial \text{tr}(\boldsymbol B \boldsymbol A \boldsymbol X)}{\partial \boldsymbol X} = \boldsymbol A^T \boldsymbol B^T . \tag{1.26} \end{align}\]
这是(1.24)的推论。
对\(\boldsymbol X_{m\times n}\)和对称阵\(\boldsymbol A_{n\times n}\), \[\begin{align} & \frac{\partial \text{tr}(\boldsymbol X \boldsymbol A \boldsymbol X^T)}{\partial \boldsymbol X} = 2 \boldsymbol X \boldsymbol A . \tag{1.27} \end{align}\]
对\(\boldsymbol X_{m\times n}\), \(\boldsymbol A_{n\times m}\), \(\boldsymbol B_{n\times m}\), \[\begin{align} & \frac{\partial \text{tr}(\boldsymbol X \boldsymbol A \boldsymbol X \boldsymbol B)}{\partial \boldsymbol X} = \boldsymbol B^T \boldsymbol X^T \boldsymbol A^T + \boldsymbol A^T \boldsymbol X^T \boldsymbol B^T . \tag{1.28} \end{align}\]
对\(\boldsymbol X_{m\times n}\), \(\boldsymbol A_{n\times n}\), \(\boldsymbol B_{m\times m}\), \[\begin{align} & \frac{\partial \text{tr}(\boldsymbol X \boldsymbol A \boldsymbol X^T \boldsymbol B)}{\partial \boldsymbol X} = \boldsymbol B^T \boldsymbol X \boldsymbol A^T + \boldsymbol B \boldsymbol X \boldsymbol A . \tag{1.29} \end{align}\]
对\(\boldsymbol X_{m\times n}\), \(\boldsymbol B_{m\times m}\), \[\begin{align} & \frac{\partial \text{tr}(\boldsymbol X^T \boldsymbol X \boldsymbol B)}{\partial \boldsymbol X} = \boldsymbol X ( \boldsymbol B + \boldsymbol B^T) . \tag{1.30} \end{align}\]
对可逆的\(m\times m\)矩阵\(\boldsymbol X\),有 \[\begin{align} \frac{\partial \text{det}(\boldsymbol X)}{\partial \boldsymbol X} =& \text{det}(\boldsymbol X) \boldsymbol X^{-T}, \tag{1.31} \\ \frac{\partial \log \text{det}(\boldsymbol X)}{\partial \boldsymbol X} =& \boldsymbol X^{-T}, \tag{1.32}\\ \frac{\partial \text{det}(\boldsymbol X^{-1})}{\partial \boldsymbol X} =& -\frac{1}{\text{det}(\boldsymbol X)} \boldsymbol X^{-T} . \tag{1.33} \end{align}\]
来证明(1.31)。 为了求\(\text{det}(\boldsymbol X)\)关于\(x_{ij}\)的偏导数, 记\(\boldsymbol X\)的伴随矩阵为\(\text{Adj}(\boldsymbol X)\), 即 \[ \boldsymbol X^{-1} = \frac{1}{\text{det}(\boldsymbol X)} \text{Adj}(\boldsymbol X) . \] 将\(\text{det}(\boldsymbol X)\)沿第\(i\)行展开, 有 \[ \text{det}(\boldsymbol X) = \sum_{j=1}^m x_{ij} X_{ij}, \] 其中\(X_{ij}\)是\(x_{ij}\)的代数余子式, 不包含\(x_{ij}\)作为因子, 所以\(\text{det}(\boldsymbol X)\)关于\(x_{ij}\)的一阶偏导数为\(X_{ij}\), \(X_{ji}\)是\(\text{Adj}(\boldsymbol X)\)的\((i,j)\)元素, 从而 \[ \frac{\partial \text{det}(\boldsymbol X)}{\partial \boldsymbol X} = [\text{Adj}(\boldsymbol X)]^T . \] 再利用\(\text{Adj}(\boldsymbol X) = \text{det}(\boldsymbol X) \boldsymbol X^{-1}\)即可得(1.31)。
(1.32)只要对\(\log\)和\(\text{det}\)作复合求导, 利用(1.31)即可得到。
(1.33)利用\(\text{det}(\boldsymbol X^{-1}) = 1/\text{det}(\boldsymbol X)\)和复合求导可得。
1.7 向量和矩阵的几何理解
1.7.1 向量的距离
设\(\boldsymbol x, \boldsymbol y \in \mathbb R^p\), 若函数\(d(\boldsymbol x, \boldsymbol y)\)满足 \[\begin{aligned} & d(\boldsymbol x, \boldsymbol y) > 0, \quad \boldsymbol x \neq \boldsymbol y, \\ & d(\boldsymbol x, \boldsymbol y) = 0, \quad \text{当且仅当}\boldsymbol x = \boldsymbol y, \\ & d(\boldsymbol x, \boldsymbol y) \leq d(\boldsymbol x, \boldsymbol z) + d(\boldsymbol z, \boldsymbol y), \quad \forall \boldsymbol x, \boldsymbol y, \boldsymbol z \end{aligned}\] 称\(d(\cdot, \cdot)\)为距离。
若\(A\)为正定阵,称 \[\begin{aligned} d(\boldsymbol x, \boldsymbol y) = \sqrt{ (\boldsymbol x - \boldsymbol y)^T A (\boldsymbol x - \boldsymbol y)} \end{aligned}\] 为一个欧式距离。最简单情形是\(A=I_p\), 这时\(d(\boldsymbol x, \boldsymbol y) = \sqrt{\sum_{j=1}^p (x_j - y_j)^2}\)。
集合 \[\begin{aligned} E_d = \{ \boldsymbol x \in \mathbb R^p \,|\, (\boldsymbol x - \boldsymbol x_0)^T (\boldsymbol x - \boldsymbol x_0) = d^2 \} \end{aligned}\] 是以\(\boldsymbol x_0\)为中心、以\(d\)为半径的(超)球面。
\(A>0\)时集合 \[\begin{aligned} E_d = \{ \boldsymbol x \in \mathbb R^p \,|\, (\boldsymbol x - \boldsymbol x_0)^T A (\boldsymbol x - \boldsymbol x_0) = d^2 \} \end{aligned}\] 是以\(\boldsymbol x_0\)为中心、矩阵\(A\)和常数\(d\)为参数的(超)椭球面。 适当的坐标变换可以转换为(超)球面。
设\(A\)的特征值分解为\(A = \Gamma \Lambda \Gamma^T\), 则(超)椭球\(E_d\)的主轴方向为\(\boldsymbol\gamma_j\), \(j=1,\dots, p\), 主轴半径为\(d/\sqrt{\lambda_j}\), 用边平行于坐标轴的(超)长方体包围\(E_d\), 各边为 \[\begin{align*} x_{0i} - d \sqrt{a^{ii}} \leq x_i \leq x_{0i} + d \sqrt{a^{ii}}, \ i=1,\dots, p \end{align*}\] 其中\(a^{ii}\)是\(A^{-1}\)的第\((i,i)\)元素。
1.7.2 向量模
\(\| \boldsymbol x \| = \sqrt{\boldsymbol x^T \boldsymbol x}\), 对应于\(I_p\)的欧式距离为\(\| \boldsymbol x - \boldsymbol y \|\)。
对正定阵\(A\), \(\| \boldsymbol x \|_A = \sqrt{\boldsymbol x^T A \boldsymbol x}\), 对应于\(A\)的欧式距离为\(\| \boldsymbol x - \boldsymbol y \|_A\)。
1.7.3 向量夹角
设\(\boldsymbol x \neq 0, \boldsymbol y \neq 0\), 夹角\(\theta\)为 \[\begin{aligned} \theta = \cos^{-1} \frac{\boldsymbol x^T \boldsymbol y} {\| \boldsymbol x \| \, \| \boldsymbol y \|} . \end{aligned}\]
若\(\boldsymbol x\)和\(\boldsymbol y\)是两个中心化的\(n\)维向量, 则其样本相关系数等于\(\cos(\theta)\)。
1.7.4 坐标旋转变换
二维时 \[\begin{align*} \Gamma = \left(\begin{array}{cc} \cos\theta & \sin\theta \\ -\sin\theta & \cos\theta \end{array}\right) \end{align*}\] 逆时针旋转\(\theta\)弧度的旋转变换为\(\boldsymbol y = \Gamma \boldsymbol x\)。
对\(\boldsymbol x \in \mathbb R^p\),\(\Gamma\)为正交阵, 则\(\boldsymbol y = \Gamma \boldsymbol x\)是旋转和反射变换。
1.7.5 矩阵的列空间和零空间
设\(A\)为\(n \times p\)矩阵, \[\begin{aligned} \mu(A) = \{ A \boldsymbol\beta \,|\, \boldsymbol\beta \in \mathbb R^p \} \end{aligned}\] 是\(A\)的各列的线性组合构成的\(\mathbb R^n\)的子空间, 称为\(A\)的各列张成的子空间, 简称为\(A\)的列空间。 \(\mu(A)\)的维数(最大线性无关组向量个数)为\(A\)的秩\(r\)。
\[\begin{aligned} \text{Ker}(A) = \{ \boldsymbol\beta \in \mathbb R^p \;|\; A \boldsymbol\beta = 0 \} \end{aligned}\] 是\(\mathbb R^p\)的子空间,称为\(A\)的零空间。 \(\text{Ker}(A)\)的维数等于\(p-r\)。
\[ \mathbb R^n = \mu(A) \oplus \text{Ker}(A^T), \] 即\(\forall \boldsymbol y \in \mathbb R^n\), 必存在唯一的\(\boldsymbol x \in \mu(A)\), 和\(\boldsymbol z\)使得\(A^T \boldsymbol z = \boldsymbol 0\), 满足\(\boldsymbol y = \boldsymbol x + \boldsymbol z\)且\(\boldsymbol x^T \boldsymbol z = 0\)。 事实上,\(\boldsymbol x\)是\(\boldsymbol y\)向子空间\(\mu(A)\)的正交投影。
1.7.6 投影阵
设\(\mathbb R^n\)为\(n\)维欧式空间, \(D\)为其子线性空间, 对任意\(\boldsymbol x \in \mathbb R^n\), 存在唯一的分解 \[ x = x_1 + x_2, \] 其中\(x_1 \in D\), \(x_2 \perp D\), \(x_2 \perp D\)含义为对任意\(\boldsymbol y \in D\)有\(\boldsymbol x_2^T \boldsymbol y = 0\)。 称\(\boldsymbol x_1\)为\(\boldsymbol x\)向子空间\(D\)的正交投影或投影。
\(\boldsymbol x_1 \in D\)是\(\boldsymbol x\)向\(D\)的正交投影, 当且仅当 \[ \| \boldsymbol x - \boldsymbol x_1 \| \leq \| \boldsymbol x - \boldsymbol y \|, \ \forall \boldsymbol y \in D . \]
\(n \times n\)实对称阵\(P\)称为(正交)投影阵,如果\(P^2 = P\)。 这时对任意\(\boldsymbol x \in \mathbb R^n\), \(P \boldsymbol x\)是\(\boldsymbol x \in \mathbb R^n\)向\(\mu(P)\)的正交投影, 称\(P\)为\(\mathbb R^n\)向\(\mu(P)\)的正交投影阵。
设\(X\)为\(n \times p\)满秩(\(n>p\)), 令 \[\begin{aligned} P = X (X^T X)^{-1} X^T, \ Q = I_n - P, \end{aligned}\] 则\(P, Q\)是正交投影阵,\(PX=X\), \(QX=0\)。 \(P\)是\(\mathbb R^n\)向\(\mu(X)\)的正交投影阵。
更一般地,设\(X\)为\(n \times p\)矩阵, 令 \[ P = X X^+, \ Q = I_n - P, \] 则\(P, Q\)是正交投影阵,\(PX=X\), \(QX=0\)。 \(P\)是\(\mathbb R^n\)向\(\mu(X)\)的正交投影阵。
特别地, 如果\(\boldsymbol x\)和\(\boldsymbol y\)是\(\mathbb R^n\)中的向量, \(\boldsymbol x \neq \boldsymbol 0\), 称\(\boldsymbol y\)向\(\mu(\boldsymbol x)\)的投影为\(\boldsymbol y\)向\(\boldsymbol x\)的投影, 此投影为 \[ \boldsymbol p_{\boldsymbol x} = \boldsymbol x (\boldsymbol x^T \boldsymbol x)^{-1} \boldsymbol x^T \boldsymbol y = \frac{\boldsymbol x^T \boldsymbol y}{ \| \boldsymbol x \|^2} \boldsymbol x . \] 其长度为 \[ \| \boldsymbol p_{\boldsymbol x} \| = \frac{| \boldsymbol x^T \boldsymbol y |}{ \| \boldsymbol x \|} . \]