1. 向量（Vector）与矩阵（Matrix）

1.1. 基本定义

设

一个 $m \times n$ 的方程组描述如下 \[ \left\{ \begin{array}{c} a_{11} x_{1}+a_{12} x_{2}+\cdots+a_{1 n} x_{n}=b_{1} \\ a_{21} x_{1}+a_{22} x_{2}+\cdots+a_{2 n} x_{n}=b_{2} \\ \vdots \\ a_{m 1} x_{1}+a_{m 2} x_{2}+\cdots+a_{m n} x_{n}=b_{m} \end{array}\right . \]
各元素都属于实数域

则

上述方程组可以表示为 \[ Ax = b \]

其中，

$x,b$ 均为一个 $n$ 维的向量，记 $x \in \mathbb{R}^{m}$ 或 $x \in \mathbb{R}^{m \times 1}$
注：
- 一般将不加转置的符号 $x$ 表示为列向量，即 \[ x = \begin{pmatrix} x_{1} \\ \cdots \\ x_i \\ \cdots \\ x_{m} \end{pmatrix} = \begin{pmatrix} x_{1} , \cdots,， x_i , \cdots , x_{m} \end{pmatrix}^T \] 将加转置符号 $x^T$ 表示为行向量，即 \[ x^T = (x^{(1)},\cdots , x^{(j)} \cdots , x^{(n)}) \]
- 以行向量表示时，也可以使用空格代替逗号，即 $(x^{(1)},, x^{(j)}， , x^{(n)}) = (x^{(1)} x^{(j)} x^{(n)}) $
- 也有使用冒号表示向量空间与值域空间关系的，即 $x:\mathbb{R}^m$
- 一般使用普通书写体 $x$ 表示标量，使用黑体 $\boldsymbol x$ 或上标 $\vec x$ 表示（列）向量，但由于本人比较懒，向量写起来麻烦，所以在一些非正式且易辨认的场合（比如这篇笔记中，如无特殊说明，皆以小写字母表示向量，大写字母表示矩阵，希腊字母表示标量），就没有特意使用黑体或上标箭头标注向量。
$A$ 为一个 $m$ 行 $n$ 列的矩阵，记 $A=A_{m\times n} \in \mathbb{R}^{m \times n}$，若设
- $a_{ij}$ 为 $A$ 的第 $i$ 行第 $j$ 列的元素，是一个标量
- $a_i$ 为 $A$ 的第 $i$ 行的行向量，记 $a_i = \begin{pmatrix} a_{i1} \cdots a_{in} \end{pmatrix}$
- $a^{(j)}$ 为 $A$ 的第 $j$ 列的列向量，记 $a^{(j)} = \begin{pmatrix} a_{1j} \\ \cdots \\ a_{mj} \end{pmatrix}$
则 $A$ 可以表示为 \[ \begin{aligned} A &=A_{m\times n} = (a_{ij}) = (a_{ij})_{m\times n} \\ &= \begin{pmatrix} a_{1} \\ \cdots \\ a_i \\ \cdots \\ a_{m} \end{pmatrix} = \{a_1,\cdots,a_i,\cdots,a_m\} \\ &= (a^{(1)},\cdots , a^{(j)} \cdots , a^{(n)}) = \{(a^{(1)})^T,\cdots , (a^{(j)})^T, \cdots , (a^{(n)})^T\} \end{aligned} \]
注：
- 当维数已经给定或者无关紧要时，维数下标常省略
- 也有使用 $[\cdot]$ 来代替 $(\cdot)$ 来表示矩阵的表示方法，例如，张贤达的《矩阵分析与应用》

1.2. 常用定义

设

$x$ 是一个列向量
$A$ 为一个 $m$ 行 $n$ 列的矩阵，即 $A=A_{m\times n}$
$\lambda$ 为一个标量

则

名称	数学记法	定义
基向量	$x = e$	只有一个元素是1，其他元素是0
零矩阵	$A=O$	$A$ 中元素全为0
方阵或 $n$ 阶矩阵		$m=n$
对角矩阵	$\Lambda=\text{diag}(a_{11},\cdots,,a_{nn})$	方阵 $A$ 除主对角线外的元素全为0（注：在不严格要求下，也认为矩阵具有对角矩阵）
单位矩阵	$\Lambda = E=I$	$\Lambda$ 的主对角线元素全为1
转置	$A^T$ 或 $A'$（该表示用得较少）	将 $ (a_{ij})_{mn}$ 旋转变成 $(a_{ji})_{n \times m}$
复数共轭	$A^\*$	$A$ 的共轭形式，即 $A^\* = (a^\*_{ij})$
共轭转置	$A^H$	$A$ 的复数共轭矩阵的转置，即$A^H = (a^\*_{ji})$
逆矩阵	$A^{-1}$	$AA^{-1}=A^{-1}A=E$
迹	$\tr(A)=\sum_i a_{ii} = \sum_i \mathrm{eig}_i(A)$	$A$ 的主对角线元素之和
$k$ 阶子式		$A$ 中任取 $k$ 行 $k$ 列，组成一个 $k \times k$ 的方阵 $B$称 $B$ 为 $A$ 的 $k$ 阶子式
秩	$R(A)=r(A)=\text{rk}(A)=\text{rank}(A)$，且 $0\leq r(A)\leq \min\{m,n\}$	$A$ 中一个最大子式的阶数 $k$
满秩矩阵		$A$ 为方阵，且可逆
降秩矩阵		$A$ 为方阵，且不可逆
特征值、特征向量、特征向量	$= (A) $	$Ax=\lambda x$ 或 $(A-\lambda E)x = 0$，则称 $\lambda$ 为 $A$ 的特征值，$x$ 为 $A$ 的特征向量，$
相似变换矩阵		$P^{-1}AP=B$，则称 $B$ 为 $A$ 的相似矩阵
行列式	$D=\\|A\\| = \det(A) \\ = \sum_j (-1)^{j} a_{1 j_{1}} a_{2 j_{2}} \cdots a_{n j_{n}} = \prod_i \mathrm{eig}_i(A)$	一个标量，一般认为只有方阵才有行列式（注：在不严格要求下，也有认为矩阵也具有行列式）当且仅当， $A$ 可逆， $\|A\| \neq 0$

2. 线性运算

2.1. 乘积

2.1.1. 基本定义

设

$\lambda$ 是一个标量
$x$ 是一个 $p$ 维向量
$A=A_{m\times p},B=B_{p \times n}$

则

$A$ 和 $B$ 的乘积表示为 \[ A \cdot B=\begin{bmatrix} a_{1 1} b_{1 1}+a_{1 2} b_{2 1}+\cdots+a_{1 p} b_{p 1} & \cdots & a_{1 1} b_{1 n}+a_{1 2} b_{2 n}+\cdots+a_{1 p} b_{p n} \\ \vdots & \ddots & \vdots \\ a_{m1} b_{11}+a_{m 2} b_{2 1}+\cdots+a_{m p} b_{p 1} & \cdots & a_{m 1} b_{1 n}+a_{m 2} b_{2 n}+\cdots+a_{m p} b_{p n} \end{bmatrix} =\left [\sum_{k=1}^{p} a_{i k} b_{k j} \right ]_{m \times n} \]

注：

一般简写为 $A \cdot B = AB$
$A$ 和 $x$ 的乘积计算，将 $x$ 看做一个 $p \times 1$ 的矩阵，用矩阵乘法法则计算即可，即 \[ Ax = \left [\sum_{k=1}^{p} a_{i k} x_k \right ]_{m \times p} \]
$\lambda$ 和 $A$ （或 $x$）的乘积表示为 \[ \lambda A = [\lambda a_{ij}]_{m\times p} \]

2.1.2. 常用法则

2.1.2.1. 标量对矩阵

\[ \begin{aligned} (\lambda \mu) A&=\lambda(\mu A) \\ (\lambda+\mu) A&=\lambda A+\mu A \\ \lambda(A+B)&=\lambda A+\lambda B \end{aligned} \]

2.1.2.2. 矩阵对矩阵

\[ \begin{aligned} (A+B)C &= AC + BC \\ A(B+C) &= AB+AC \\ (A B) C&=A(B C) \\ \lambda(A B)&=(\lambda A)B=A(\lambda B) \\ A E&=E A=A \end{aligned} \]

2.1.2.3. 转置

\[ \begin{aligned} (A+B)^T &= A^T + B^T \\ (ABC\cdots)^T &= \cdots C^TB^TA^T \end{aligned} \]

2.1.2.4. 逆

\[ \begin{aligned} (A^{-1})^T &= (A^T)^{-1} \\ (ABC\cdots)^{-1} &= \cdots C^{-1}B^{-1}A^{-1} \\ (I + A^{-1})^{-1} &= A(A + I)^{-1} \\ A^{-1} + B^{-1} &= A^{-1} (A + B) B^{-1} \end{aligned} \]

2.1.2.5. 迹

\[ \begin{aligned} \tr({A}) &=\tr\left({A}^{T}\right) \\ \tr({A B}) &=\tr({B A}) \\ \tr({A}+{B}) &=\tr({A})+\tr({B}) \\ \tr({A B C}) &=\tr({B C A})=\tr({C A B}) \\ {a}^{T} {a} &=\tr\left({a a}^{T}\right) \end{aligned} \]

2.1.2.6. 行列式

\[ \begin{aligned} \operatorname{det}(c {A}) &=c^{n} \operatorname{det}({A}) \\ \operatorname{det}\left({A}^{T}\right) &=\operatorname{det}({A}) \\ \operatorname{det}({A B}) &=\operatorname{det}({A}) \operatorname{det}({B}) \\ \operatorname{det}\left({A}^{-1}\right) &=1 / \operatorname{det}({A}) \\ \operatorname{det}\left({A}^{n}\right) &=\operatorname{det}({A})^{n} \\ \operatorname{det}\left({I}+{\lambda \theta}^{T}\right) &=1+{\lambda}^{T} {\theta} \end{aligned} \]

2.2. 哈达玛（Hadamard）积

又称基本积，或点积

2.2.1. 基本定义

设

$A,B$ 均为 $m\times n$ 的矩阵

则

$A$ 和 $B$ 的哈达玛积表示为 \[ A \circ B = \begin{bmatrix} a_{11} b_{11} & a_{12} b_{12} & \cdots & a_{1 n} b_{1 n} \\ a_{21} b_{21} & a_{22} b_{22} & \cdots & a_{2 n} b_{2 n} \\ \vdots & \vdots & & \vdots \\ a_{m 1} b_{m 1} & a_{m 2} b_{m 2} & \cdots & a_{m n} b_{m n} \end{bmatrix} = [a_{ij}b_{ij}]_{m \times n} \]

2.3. 克罗内克（Kronecker）积

2.3.1. 基本定义

设

$A=A_{m\times n},B=B_{p \times q}$

则

$A$ 和 $B$ 的克罗内克积表示为 \[ A \otimes B=\begin{bmatrix} a_{11} B & \cdots & a_{1 n} B \\ \vdots & \ddots & \vdots \\ a_{m 1} B & \cdots & a_{m n} B \end{bmatrix} = [a_{ij}B]_{mp \times nq} \]

2.4. 求导

2.4.1. 基本定义

设：

$\lambda,\theta$ 是一个标量
$x = x_{k \times 1},y = y_{l \times 1}$ 是一个向量
$X=X_{m\times n},Y=Y_{p \times q}$ 是一个矩阵

则

	标量 $\theta$	向量 $y$	矩阵 $Y$
标量 $\lambda$	$ $	$\left[ \frac{\partial(y_a)}{\partial(\lambda)} \right]_{l \times 1}$	$\left[ \frac{\partial(Y_{ab})}{\partial(\lambda)} \right]_{p \times q}$
向量 $x$	$\left[ \frac{\partial(\theta)}{\partial(x_i)} \right]_{k \times 1}$	$\left[ \frac{\partial(y_a)}{\partial(x_i)} \right]_{l \times k}$	$\left[ \frac{\partial(Y_{ab})}{\partial(x_i)} \right]_{pk \times q}$
矩阵 $X$	$\left[ \frac{\partial(\theta)}{\partial(X_{ij})} \right]_{m \times n}$	$\left[ \frac{\partial(y_a)}{\partial(X_{ij})} \right]_{ml \times n}$	$\left[ \frac{\partial(Y_{ab})}{\partial(X_{ij})} \right]_{mp \times nq}$

注：

标量、向量、矩阵间的求导都是逐元素求导，然后按照分子布局（numerator layout）和分母布局（denominator layout ）两种布局策略对求导后的值重新排列。布局只影响元素的排列情况，不影响求导的实际运算，两种布局的结果互为转置。

上面给出的都是默认布局的求导情况。

默认布局的判断：“向量或矩阵” 与 “标量” 间求导，取向量或矩阵一侧布局，例如分子标量，分母向量，取分母布局，即与分母同维；“矩阵、向量”间求导，这种情况其实没有严格意义上的分子或分母布局，因为这种情况下的结果应该为一个3维或4维的张量，但为了计算便利，将其排列为一个矩阵形式，所以默认布局为对应维度相乘。

2.4.2. 常用法则

2.4.2.1. 微分法则

\[ \begin{aligned} \partial {A} &=0 \\ \partial(\alpha {X}) &=\alpha \partial {X} \\ \partial({X}+{Y}) &=\partial {X}+\partial {Y} \\ \partial \left (\sum_i X_i \right ) &= \sum_i \partial(X_i)\\ \partial(\tr({X})) &=\tr(\partial {X}) \\ \partial({X Y}) &=(\partial {X}) {Y}+{X}(\partial {Y}) \\\partial({X} \circ {Y}) &=(\partial {X}) \circ {Y}+{X} \circ(\partial {Y}) \\ \partial({X} \otimes {Y}) &=(\partial {X}) \otimes {Y}+{X} \otimes(\partial {Y}) \\ \partial\left({X}^{-1}\right) &=-{X}^{-1}(\partial {X}) {X}^{-1} \\ \partial(\operatorname{det}({X})) &=\tr(\operatorname{adj}({X}) \partial {X}) \\ \partial(\operatorname{det}({X})) &=\operatorname{det}({X}) \tr\left({X}^{-1} \partial {X}\right) \\ \partial(\ln (\operatorname{det}({X}))) &=\tr\left({X}^{-1} \partial {X}\right) \\ \partial {X}^{T} &=(\partial {X})^{T} \\ \partial {X}^{H} &=(\partial {X})^{H} \end{aligned} \]

2.4.2.2. 基础法则

\[ \begin{aligned} \frac{\partial {x}^{T} {a}}{\partial {x}} &=\frac{\partial {a}^{T} {x}}{\partial {x}}={a} \\ \frac{\partial {a}^{T} {X} {b}}{\partial {X}} &={a b}^{T} \\ \frac{\partial {a}^{T} {X}^{T} {b}}{\partial {X}} &={b a}^{T} \\ \frac{\partial {a}^{T} {X} {a}}{\partial {X}} &=\frac{\partial {a}^{T} {X}^{T} {a}}{\partial {X}}={a} {a}^{T} \\ \frac{\partial {x}^{T} {B} {x}}{\partial {x}}&=\left({B}+{B}^{T}\right) {x} \\ \frac{\partial {b}^{T} {X}^{T} {X} {c}}{\partial {X}}&={X}\left({b c}^{T}+{c b}^{T}\right) \end{aligned} \]

2.4.2.3. 迹

\[ \begin{aligned} \frac{\partial}{\partial {X}} \tr\left({X}^{2}\right) &=2 {X}^{T} \\ \frac{\partial}{\partial {X}} \tr\left({X^TX}\right) &=2 {X} \\ \frac{\partial}{\partial {X}} \tr\left({X}^{2} {B}\right) &=({X B}+{B X})^{T} \\ \frac{\partial}{\partial {X}} \tr\left({X}^{T} {B} {X}\right) &={B} {X}+{B}^{T} {X} \\ \frac{\partial}{\partial {X}} \tr\left({X B X}^{T}\right) &={X B}^{T}+{X B} \\ \frac{\partial}{\partial {X}} \tr({A X B X}) &={A}^{T} {X}^{T} {B}^{T}+{B}^{T} {X}^{T} {A}^{T} \end{aligned} \]

2.4.2.4. 链式法则

$x \rightarrow f_1 \rightarrow \cdots \rightarrow f_n \rightarrow y$ 型 \[ \frac{\partial y }{\partial x} = \frac{\partial y }{\partial f_n} \frac{\partial f_n }{\partial f_{n-1}}\cdots \frac{\partial f_1 }{\partial x} \]
$x \rightarrow f_1 \rightarrow \cdots \rightarrow f_n \rightarrow \theta$ 型 \[ \frac{\partial \theta }{\partial x^T} = \frac{\partial \theta }{\partial f_n^T} \frac{\partial f_n }{\partial f_{n-1}}\cdots \frac{\partial f_1 }{\partial x} \] 或 \[ \frac{\partial \theta }{\partial x} = (\frac{\partial f_n }{\partial f_{n-1}}\cdots \frac{\partial f_1 }{\partial x})^T\frac{\partial \theta }{\partial f_n} \]
$X \rightarrow F \rightarrow \theta$ 型 \[ \frac{\partial \theta }{\partial X_{ij}} = \sum _{k,l} \frac{\partial \theta }{\partial F_{kl}} \frac{\partial F_{kl} }{\partial X_{ij}} = \tr \left( (\frac{\partial \theta }{\partial F})^T \frac{\partial F }{\partial X_{ij}}\right) \]

连续的矩阵求导并没有通用的链式法则，上面展示的只是连续两个矩阵求导的法则，对于连续3个矩阵求导并不适用
$X \rightarrow \lambda_1 \rightarrow \cdots \rightarrow \lambda_n \rightarrow \theta$ 型 \[ \frac{\partial \theta }{\partial X} = \frac{\partial \theta }{\partial \lambda_n} \frac{\partial \lambda_n }{\partial \lambda_{n-1}}\cdots \frac{\partial \lambda_1 }{\partial X} \]
$\theta \leftarrow Y = AX+B$ 型 \[ \frac{\partial \theta }{\partial X} = A^T \frac{\partial \theta }{\partial Y} \]
$\theta \leftarrow y = Ax+b$ 型 \[ \frac{\partial \theta }{\partial x} = A^T \frac{\partial \theta }{\partial y} \]
$\theta \leftarrow Y = XA+B$ 型 \[ \frac{\partial \theta }{\partial X} = \frac{\partial \theta }{\partial Y}A^T \]
$\theta \leftarrow y = Xa+b$ 型 \[ \frac{\partial \theta }{\partial X} = \frac{\partial \theta }{\partial y}a^T \]

3. references

The Matrix Cookbook

Matrix calculus

《矩阵分析与应用》张贤达

math

常用概率统计基础

cheat sheet of Probability and Statistics

2021-10-26 数学基础