1. 向量(Vector)与矩阵(Matrix)
1.1. 基本定义
设
一个 \(m \times n\) 的方程组描述如下 \[ \left\{ \begin{array}{c} a_{11} x_{1}+a_{12} x_{2}+\cdots+a_{1 n} x_{n}=b_{1} \\ a_{21} x_{1}+a_{22} x_{2}+\cdots+a_{2 n} x_{n}=b_{2} \\ \vdots \\ a_{m 1} x_{1}+a_{m 2} x_{2}+\cdots+a_{m n} x_{n}=b_{m} \end{array}\right . \]
各元素都属于实数域
则
- 上述方程组可以表示为 \[ Ax = b \]
其中,
\(x,b\) 均为一个 \(n\) 维的向量,记 \(x \in \mathbb{R}^{m}\) 或 \(x \in \mathbb{R}^{m \times 1}\)
注:
一般将不加转置的符号 \(x\) 表示为列向量,即 \[ x = \begin{pmatrix} x_{1} \\ \cdots \\ x_i \\ \cdots \\ x_{m} \end{pmatrix} = \begin{pmatrix} x_{1} , \cdots,, x_i , \cdots , x_{m} \end{pmatrix}^T \] 将加转置符号 \(x^T\) 表示为行向量,即 \[ x^T = (x^{(1)},\cdots , x^{(j)} \cdots , x^{(n)}) \]
以行向量表示时,也可以使用空格代替逗号,即 $(x^{(1)},, x^{(j)}, , x^{(n)}) = (x^{(1)} x^{(j)} x^{(n)}) $
也有使用冒号表示向量空间与值域空间关系的,即 \(x:\mathbb{R}^m\)
一般使用普通书写体 \(x\) 表示标量,使用黑体 \(\boldsymbol x\) 或上标 \(\vec x\) 表示(列)向量,但由于本人比较懒,向量写起来麻烦,所以在一些非正式且易辨认的场合(比如这篇笔记中,如无特殊说明,皆以小写字母表示向量,大写字母表示矩阵,希腊字母表示标量),就没有特意使用黑体或上标箭头标注向量。
\(A\) 为一个 \(m\) 行 \(n\) 列的矩阵,记 \(A=A_{m\times n} \in \mathbb{R}^{m \times n}\),若设
- \(a_{ij}\) 为 \(A\) 的第 \(i\) 行第 \(j\) 列的元素,是一个标量
- \(a_i\) 为 \(A\) 的第 \(i\) 行的行向量,记 \(a_i = \begin{pmatrix} a_{i1} \cdots a_{in} \end{pmatrix}\)
- \(a^{(j)}\) 为 \(A\) 的第 \(j\) 列的列向量,记 \(a^{(j)} = \begin{pmatrix} a_{1j} \\ \cdots \\ a_{mj} \end{pmatrix}\)
则 \(A\) 可以表示为 \[ \begin{aligned} A &=A_{m\times n} = (a_{ij}) = (a_{ij})_{m\times n} \\ &= \begin{pmatrix} a_{1} \\ \cdots \\ a_i \\ \cdots \\ a_{m} \end{pmatrix} = \{a_1,\cdots,a_i,\cdots,a_m\} \\ &= (a^{(1)},\cdots , a^{(j)} \cdots , a^{(n)}) = \{(a^{(1)})^T,\cdots , (a^{(j)})^T, \cdots , (a^{(n)})^T\} \end{aligned} \]
注:
- 当维数已经给定或者无关紧要时,维数下标常省略
- 也有使用 \([\cdot]\) 来代替 \((\cdot)\) 来表示矩阵的表示方法,例如,张贤达的《矩阵分析与应用》
1.2. 常用定义
设
- \(x\) 是一个列向量
- \(A\) 为一个 \(m\) 行 \(n\) 列的矩阵,即 \(A=A_{m\times n}\)
- \(\lambda\) 为一个标量
则
名称 | 数学记法 | 定义 |
---|---|---|
基向量 | \(x = e\) | 只有一个元素是1,其他元素是0 |
零矩阵 | \(A=O\) | \(A\) 中元素全为0 |
方阵 或 \(n\) 阶矩阵 | \(m=n\) | |
对角矩阵 | \(\Lambda=\text{diag}(a_{11},\cdots,,a_{nn})\) | 方阵 \(A\) 除主对角线外的元素全为0(注:在不严格要求下,也认为矩阵具有对角矩阵) |
单位矩阵 | \(\Lambda = E=I\) | \(\Lambda\) 的主对角线元素全为1 |
转置 | \(A^T\) 或 \(A'\)(该表示用得较少) | 将 $ (a_{ij})_{mn}$ 旋转变成 \((a_{ji})_{n \times m}\) |
复数共轭 | \(A^\*\) | \(A\) 的共轭形式,即 \(A^\* = (a^\*_{ij})\) |
共轭转置 | \(A^H\) | \(A\) 的复数共轭矩阵的转置,即\(A^H = (a^\*_{ji})\) |
逆矩阵 | \(A^{-1}\) | \(AA^{-1}=A^{-1}A=E\) |
迹 | \(\tr(A)=\sum_i a_{ii} = \sum_i \mathrm{eig}_i(A)\) | \(A\) 的主对角线元素之和 |
\(k\) 阶子式 | \(A\) 中任取 \(k\) 行 \(k\) 列,组成一个 \(k \times k\) 的方阵 \(B\)称 \(B\) 为 \(A\) 的 \(k\) 阶子式 | |
秩 | \(R(A)=r(A)=\text{rk}(A)=\text{rank}(A)\),且 \(0\leq r(A)\leq \min\{m,n\}\) | \(A\) 中一个最大子式的阶数 \(k\) |
满秩矩阵 | \(A\) 为方阵,且可逆 | |
降秩矩阵 | \(A\) 为方阵,且不可逆 | |
特征值、特征向量、特征向量 | $= (A) $ | \(Ax=\lambda x\) 或 \((A-\lambda E)x = 0\),则称 \(\lambda\) 为 \(A\) 的特征值,\(x\) 为 \(A\) 的特征向量,$ |
相似变换矩阵 | \(P^{-1}AP=B\),则称 \(B\) 为 \(A\) 的相似矩阵 | |
行列式 | \(D=\|A\| = \det(A) \\ = \sum_j (-1)^{j} a_{1 j_{1}} a_{2 j_{2}} \cdots a_{n j_{n}} = \prod_i \mathrm{eig}_i(A)\) | 一个标量,一般认为只有方阵才有行列式(注:在不严格要求下,也有认为矩阵也具有行列式) 当且仅当, \(A\) 可逆, \(|A| \neq 0\) |
2. 线性运算
2.1. 乘积
2.1.1. 基本定义
设
- \(\lambda\) 是一个标量
- \(x\) 是一个 \(p\) 维向量
- \(A=A_{m\times p},B=B_{p \times n}\)
则
\(A\) 和 \(B\) 的乘积表示为 \[ A \cdot B=\begin{bmatrix} a_{1 1} b_{1 1}+a_{1 2} b_{2 1}+\cdots+a_{1 p} b_{p 1} & \cdots & a_{1 1} b_{1 n}+a_{1 2} b_{2 n}+\cdots+a_{1 p} b_{p n} \\ \vdots & \ddots & \vdots \\ a_{m1} b_{11}+a_{m 2} b_{2 1}+\cdots+a_{m p} b_{p 1} & \cdots & a_{m 1} b_{1 n}+a_{m 2} b_{2 n}+\cdots+a_{m p} b_{p n} \end{bmatrix} =\left [\sum_{k=1}^{p} a_{i k} b_{k j} \right ]_{m \times n} \]
注:
一般简写为 \(A \cdot B = AB\)
\(A\) 和 \(x\) 的乘积计算,将 \(x\) 看做一个 \(p \times 1\) 的矩阵,用矩阵乘法法则计算即可,即 \[ Ax = \left [\sum_{k=1}^{p} a_{i k} x_k \right ]_{m \times p} \]
\(\lambda\) 和 \(A\) (或 \(x\))的乘积表示为 \[ \lambda A = [\lambda a_{ij}]_{m\times p} \]
2.1.2. 常用法则
2.1.2.1. 标量对矩阵
\[ \begin{aligned} (\lambda \mu) A&=\lambda(\mu A) \\ (\lambda+\mu) A&=\lambda A+\mu A \\ \lambda(A+B)&=\lambda A+\lambda B \end{aligned} \]
2.1.2.2. 矩阵对矩阵
\[ \begin{aligned} (A+B)C &= AC + BC \\ A(B+C) &= AB+AC \\ (A B) C&=A(B C) \\ \lambda(A B)&=(\lambda A)B=A(\lambda B) \\ A E&=E A=A \end{aligned} \]
2.1.2.3. 转置
\[ \begin{aligned} (A+B)^T &= A^T + B^T \\ (ABC\cdots)^T &= \cdots C^TB^TA^T \end{aligned} \]
2.1.2.4. 逆
\[ \begin{aligned} (A^{-1})^T &= (A^T)^{-1} \\ (ABC\cdots)^{-1} &= \cdots C^{-1}B^{-1}A^{-1} \\ (I + A^{-1})^{-1} &= A(A + I)^{-1} \\ A^{-1} + B^{-1} &= A^{-1} (A + B) B^{-1} \end{aligned} \]
2.1.2.5. 迹
\[ \begin{aligned} \tr({A}) &=\tr\left({A}^{T}\right) \\ \tr({A B}) &=\tr({B A}) \\ \tr({A}+{B}) &=\tr({A})+\tr({B}) \\ \tr({A B C}) &=\tr({B C A})=\tr({C A B}) \\ {a}^{T} {a} &=\tr\left({a a}^{T}\right) \end{aligned} \]
2.1.2.6. 行列式
\[ \begin{aligned} \operatorname{det}(c {A}) &=c^{n} \operatorname{det}({A}) \\ \operatorname{det}\left({A}^{T}\right) &=\operatorname{det}({A}) \\ \operatorname{det}({A B}) &=\operatorname{det}({A}) \operatorname{det}({B}) \\ \operatorname{det}\left({A}^{-1}\right) &=1 / \operatorname{det}({A}) \\ \operatorname{det}\left({A}^{n}\right) &=\operatorname{det}({A})^{n} \\ \operatorname{det}\left({I}+{\lambda \theta}^{T}\right) &=1+{\lambda}^{T} {\theta} \end{aligned} \]
2.2. 哈达玛(Hadamard) 积
又称基本积,或点积
2.2.1. 基本定义
设
- \(A,B\) 均为 \(m\times n\) 的矩阵
则
- \(A\) 和 \(B\) 的哈达玛积表示为 \[ A \circ B = \begin{bmatrix} a_{11} b_{11} & a_{12} b_{12} & \cdots & a_{1 n} b_{1 n} \\ a_{21} b_{21} & a_{22} b_{22} & \cdots & a_{2 n} b_{2 n} \\ \vdots & \vdots & & \vdots \\ a_{m 1} b_{m 1} & a_{m 2} b_{m 2} & \cdots & a_{m n} b_{m n} \end{bmatrix} = [a_{ij}b_{ij}]_{m \times n} \]
2.3. 克罗内克(Kronecker)积
2.3.1. 基本定义
设
- \(A=A_{m\times n},B=B_{p \times q}\)
则
- \(A\) 和 \(B\) 的克罗内克积表示为 \[ A \otimes B=\begin{bmatrix} a_{11} B & \cdots & a_{1 n} B \\ \vdots & \ddots & \vdots \\ a_{m 1} B & \cdots & a_{m n} B \end{bmatrix} = [a_{ij}B]_{mp \times nq} \]
2.4. 求导
2.4.1. 基本定义
设:
- \(\lambda,\theta\) 是一个标量
- \(x = x_{k \times 1},y = y_{l \times 1}\) 是一个向量
- \(X=X_{m\times n},Y=Y_{p \times q}\) 是一个矩阵
则
标量 \(\theta\) | 向量 \(y\) | 矩阵 \(Y\) | |
---|---|---|---|
标量 \(\lambda\) | $ $ | \(\left[ \frac{\partial(y_a)}{\partial(\lambda)} \right]_{l \times 1}\) | \(\left[ \frac{\partial(Y_{ab})}{\partial(\lambda)} \right]_{p \times q}\) |
向量 \(x\) | \(\left[ \frac{\partial(\theta)}{\partial(x_i)} \right]_{k \times 1}\) | \(\left[ \frac{\partial(y_a)}{\partial(x_i)} \right]_{l \times k}\) | \(\left[ \frac{\partial(Y_{ab})}{\partial(x_i)} \right]_{pk \times q}\) |
矩阵 \(X\) | \(\left[ \frac{\partial(\theta)}{\partial(X_{ij})} \right]_{m \times n}\) | \(\left[ \frac{\partial(y_a)}{\partial(X_{ij})} \right]_{ml \times n}\) | \(\left[ \frac{\partial(Y_{ab})}{\partial(X_{ij})} \right]_{mp \times nq}\) |
注:
- 标量、向量、矩阵间的求导都是逐元素求导,然后按照分子布局(numerator layout)和分母布局(denominator layout )两种布局策略对求导后的值重新排列。布局只影响元素的排列情况,不影响求导的实际运算,两种布局的结果互为转置。
- 上面给出的都是默认布局的求导情况。
- 默认布局的判断:“向量或矩阵” 与 “标量” 间求导,取向量或矩阵一侧布局,例如分子标量,分母向量,取分母布局,即与分母同维;“矩阵、向量”间求导,这种情况其实没有严格意义上的分子或分母布局,因为这种情况下的结果应该为一个3维或4维的张量,但为了计算便利,将其排列为一个矩阵形式,所以默认布局为对应维度相乘。
2.4.2. 常用法则
2.4.2.1. 微分法则
\[ \begin{aligned} \partial {A} &=0 \\ \partial(\alpha {X}) &=\alpha \partial {X} \\ \partial({X}+{Y}) &=\partial {X}+\partial {Y} \\ \partial \left (\sum_i X_i \right ) &= \sum_i \partial(X_i)\\ \partial(\tr({X})) &=\tr(\partial {X}) \\ \partial({X Y}) &=(\partial {X}) {Y}+{X}(\partial {Y}) \\\partial({X} \circ {Y}) &=(\partial {X}) \circ {Y}+{X} \circ(\partial {Y}) \\ \partial({X} \otimes {Y}) &=(\partial {X}) \otimes {Y}+{X} \otimes(\partial {Y}) \\ \partial\left({X}^{-1}\right) &=-{X}^{-1}(\partial {X}) {X}^{-1} \\ \partial(\operatorname{det}({X})) &=\tr(\operatorname{adj}({X}) \partial {X}) \\ \partial(\operatorname{det}({X})) &=\operatorname{det}({X}) \tr\left({X}^{-1} \partial {X}\right) \\ \partial(\ln (\operatorname{det}({X}))) &=\tr\left({X}^{-1} \partial {X}\right) \\ \partial {X}^{T} &=(\partial {X})^{T} \\ \partial {X}^{H} &=(\partial {X})^{H} \end{aligned} \]
2.4.2.2. 基础法则
\[ \begin{aligned} \frac{\partial {x}^{T} {a}}{\partial {x}} &=\frac{\partial {a}^{T} {x}}{\partial {x}}={a} \\ \frac{\partial {a}^{T} {X} {b}}{\partial {X}} &={a b}^{T} \\ \frac{\partial {a}^{T} {X}^{T} {b}}{\partial {X}} &={b a}^{T} \\ \frac{\partial {a}^{T} {X} {a}}{\partial {X}} &=\frac{\partial {a}^{T} {X}^{T} {a}}{\partial {X}}={a} {a}^{T} \\ \frac{\partial {x}^{T} {B} {x}}{\partial {x}}&=\left({B}+{B}^{T}\right) {x} \\ \frac{\partial {b}^{T} {X}^{T} {X} {c}}{\partial {X}}&={X}\left({b c}^{T}+{c b}^{T}\right) \end{aligned} \]
2.4.2.3. 迹
\[ \begin{aligned} \frac{\partial}{\partial {X}} \tr\left({X}^{2}\right) &=2 {X}^{T} \\ \frac{\partial}{\partial {X}} \tr\left({X^TX}\right) &=2 {X} \\ \frac{\partial}{\partial {X}} \tr\left({X}^{2} {B}\right) &=({X B}+{B X})^{T} \\ \frac{\partial}{\partial {X}} \tr\left({X}^{T} {B} {X}\right) &={B} {X}+{B}^{T} {X} \\ \frac{\partial}{\partial {X}} \tr\left({X B X}^{T}\right) &={X B}^{T}+{X B} \\ \frac{\partial}{\partial {X}} \tr({A X B X}) &={A}^{T} {X}^{T} {B}^{T}+{B}^{T} {X}^{T} {A}^{T} \end{aligned} \]
2.4.2.4. 链式法则
\(x \rightarrow f_1 \rightarrow \cdots \rightarrow f_n \rightarrow y\) 型 \[ \frac{\partial y }{\partial x} = \frac{\partial y }{\partial f_n} \frac{\partial f_n }{\partial f_{n-1}}\cdots \frac{\partial f_1 }{\partial x} \]
\(x \rightarrow f_1 \rightarrow \cdots \rightarrow f_n \rightarrow \theta\) 型 \[ \frac{\partial \theta }{\partial x^T} = \frac{\partial \theta }{\partial f_n^T} \frac{\partial f_n }{\partial f_{n-1}}\cdots \frac{\partial f_1 }{\partial x} \] 或 \[ \frac{\partial \theta }{\partial x} = (\frac{\partial f_n }{\partial f_{n-1}}\cdots \frac{\partial f_1 }{\partial x})^T\frac{\partial \theta }{\partial f_n} \]
\(X \rightarrow F \rightarrow \theta\) 型 \[ \frac{\partial \theta }{\partial X_{ij}} = \sum _{k,l} \frac{\partial \theta }{\partial F_{kl}} \frac{\partial F_{kl} }{\partial X_{ij}} = \tr \left( (\frac{\partial \theta }{\partial F})^T \frac{\partial F }{\partial X_{ij}}\right) \]
连续的矩阵求导并没有通用的链式法则,上面展示的只是连续两个矩阵求导的法则,对于连续3个矩阵求导并不适用
\(X \rightarrow \lambda_1 \rightarrow \cdots \rightarrow \lambda_n \rightarrow \theta\) 型 \[ \frac{\partial \theta }{\partial X} = \frac{\partial \theta }{\partial \lambda_n} \frac{\partial \lambda_n }{\partial \lambda_{n-1}}\cdots \frac{\partial \lambda_1 }{\partial X} \]
\(\theta \leftarrow Y = AX+B\) 型 \[ \frac{\partial \theta }{\partial X} = A^T \frac{\partial \theta }{\partial Y} \]
\(\theta \leftarrow y = Ax+b\) 型 \[ \frac{\partial \theta }{\partial x} = A^T \frac{\partial \theta }{\partial y} \]
\(\theta \leftarrow Y = XA+B\) 型 \[ \frac{\partial \theta }{\partial X} = \frac{\partial \theta }{\partial Y}A^T \]
\(\theta \leftarrow y = Xa+b\) 型 \[ \frac{\partial \theta }{\partial X} = \frac{\partial \theta }{\partial y}a^T \]
3. references
《矩阵分析与应用》张贤达