常用线性代数基础


1. 向量(Vector)与矩阵(Matrix)

1.1. 基本定义

  • 一个 \(m \times n\)​ 的方程组描述如下 \[ \left\{ \begin{array}{c} a_{11} x_{1}+a_{12} x_{2}+\cdots+a_{1 n} x_{n}=b_{1} \\ a_{21} x_{1}+a_{22} x_{2}+\cdots+a_{2 n} x_{n}=b_{2} \\ \vdots \\ a_{m 1} x_{1}+a_{m 2} x_{2}+\cdots+a_{m n} x_{n}=b_{m} \end{array}\right . \]

  • 各元素都属于实数域

  • 上述方程组可以表示为 \[ Ax = b \]

其中,

  • \(x,b\)​ 均为一个 \(n\) 维的向量,记 \(x \in \mathbb{R}^{m}\)​ 或 \(x \in \mathbb{R}^{m \times 1}\)​​

    注:

    • 一般将不加转置的符号 \(x\)​​​​​​ 表示为列向量,即 \[ x = \begin{pmatrix} x_{1} \\ \cdots \\ x_i \\ \cdots \\ x_{m} \end{pmatrix} = \begin{pmatrix} x_{1} , \cdots,, x_i , \cdots , x_{m} \end{pmatrix}^T \] 将加转置符号 \(x^T\)​​ 表示为行向量,即 \[ x^T = (x^{(1)},\cdots , x^{(j)} \cdots , x^{(n)}) \]

    • 以行向量表示时,也可以使用空格代替逗号,即 $(x^{(1)},, x^{(j)}, , x^{(n)}) = (x^{(1)} x^{(j)} x^{(n)}) $​

    • 也有使用冒号表示向量空间与值域空间关系的,即 \(x:\mathbb{R}^m\)

    • 一般使用普通书写体 \(x\)​​​​​ 表示标量,使用黑体 \(\boldsymbol x\)​​​​​ 或上标 \(\vec x\)​​​​​ 表示(列)向量,但由于本人比较懒,向量写起来麻烦,所以在一些非正式且易辨认的场合(比如这篇笔记中,如无特殊说明,皆以小写字母表示向量,大写字母表示矩阵,希腊字母表示标量),就没有特意使用黑体或上标箭头标注向量。

  • \(A\)​ 为一个 \(m\)​ 行 \(n\)​ 列的矩阵,记 \(A=A_{m\times n} \in \mathbb{R}^{m \times n}\)​​​,若设

    • \(a_{ij}\)​​​​​​​​ 为 \(A\)​​​​​​​ 的第 \(i\)​​​​​​ 行第 \(j\)​​​​​​​​​ 列的元素,是一个标量
    • \(a_i\)​​ 为 \(A\)​​ 的第 \(i\)​​ 行的行向量,记 \(a_i = \begin{pmatrix} a_{i1} \cdots a_{in} \end{pmatrix}\)​​
    • \(a^{(j)}\)​​ 为 \(A\)​​ 的第 \(j\)​​ 列的列向量,记 \(a^{(j)} = \begin{pmatrix} a_{1j} \\ \cdots \\ a_{mj} \end{pmatrix}\)​​

    \(A\) 可以表示为 \[ \begin{aligned} A &=A_{m\times n} = (a_{ij}) = (a_{ij})_{m\times n} \\ &= \begin{pmatrix} a_{1} \\ \cdots \\ a_i \\ \cdots \\ a_{m} \end{pmatrix} = \{a_1,\cdots,a_i,\cdots,a_m\} \\ &= (a^{(1)},\cdots , a^{(j)} \cdots , a^{(n)}) = \{(a^{(1)})^T,\cdots , (a^{(j)})^T, \cdots , (a^{(n)})^T\} \end{aligned} \]

    注:

    • 当维数已经给定或者无关紧要时,维数下标常省略
    • 也有使用 \([\cdot]\)​​ 来代替 \((\cdot)\)​​ 来表示矩阵的表示方法,例如,张贤达的《矩阵分析与应用》

1.2. 常用定义

  • \(x\) 是一个列向量
  • \(A\)​​ 为一个 \(m\)​​ 行 \(n\)​​ 列的矩阵,即 \(A=A_{m\times n}\)​​
  • \(\lambda\)​ 为一个标量

名称 数学记法 定义
基向量 \(x = e\) 只有一个元素是1,其他元素是0
零矩阵 \(A=O\) \(A\) 中元素全为0
方阵\(n\) 阶矩阵 \(m=n\)
对角矩阵 \(\Lambda=\text{diag}(a_{11},\cdots,,a_{nn})\) 方阵 \(A\) 除主对角线外的元素全为0(注:在不严格要求下,也认为矩阵具有对角矩阵)
单位矩阵 \(\Lambda = E=I\) \(\Lambda\)​ 的主对角线元素全为1
转置 \(A^T\)\(A'\)(该表示用得较少) 将 $ (a_{ij})_{mn}$​​​​ 旋转变成 \((a_{ji})_{n \times m}\)​​
复数共轭 \(A^\*\) \(A\) 的共轭形式,即 \(A^\* = (a^\*_{ij})\)
共轭转置 \(A^H\) \(A\) 的复数共轭矩阵的转置,即\(A^H = (a^\*_{ji})\)
逆矩阵 \(A^{-1}\)​​ \(AA^{-1}=A^{-1}A=E\)
\(\tr(A)=\sum_i a_{ii} = \sum_i \mathrm{eig}_i(A)\)​​ \(A\) 的主对角线元素之和
\(k\) 阶子式 \(A\) 中任取 \(k\)\(k\) 列,组成一个 \(k \times k\) 的方阵 \(B\)\(B\)\(A\)\(k\) 阶子式
\(R(A)=r(A)=\text{rk}(A)=\text{rank}(A)\),且 \(0\leq r(A)\leq \min\{m,n\}\) \(A\) 中一个最大子式的阶数 \(k\)
满秩矩阵 \(A\) 为方阵,且可逆
降秩矩阵 \(A\) 为方阵,且不可逆
特征值特征向量特征向量 $= (A) $ \(Ax=\lambda x\)​ 或 \((A-\lambda E)x = 0\)​,则称 \(\lambda\)​ 为 \(A\)​ 的特征值\(x\)​ 为 \(A\)​ 的特征向量,$
相似变换矩阵 \(P^{-1}AP=B\),则称 \(B\)\(A\) 的相似矩阵
行列式 \(D=\|A\| = \det(A) \\ = \sum_j (-1)^{j} a_{1 j_{1}} a_{2 j_{2}} \cdots a_{n j_{n}} = \prod_i \mathrm{eig}_i(A)\)​​​ 一个标量,一般认为只有方阵才有行列式(注:在不严格要求下,也有认为矩阵也具有行列式)
当且仅当, \(A\)​ 可逆, \(|A| \neq 0\)

2. 线性运算

2.1. 乘积

2.1.1. 基本定义

  • \(\lambda\)​ 是一个标量
  • \(x\)​ 是一个 \(p\)​ 维向量
  • \(A=A_{m\times p},B=B_{p \times n}\)​​​

  • \(A\)​ 和 \(B\)​​ 的乘积表示为 \[ A \cdot B=\begin{bmatrix} a_{1 1} b_{1 1}+a_{1 2} b_{2 1}+\cdots+a_{1 p} b_{p 1} & \cdots & a_{1 1} b_{1 n}+a_{1 2} b_{2 n}+\cdots+a_{1 p} b_{p n} \\ \vdots & \ddots & \vdots \\ a_{m1} b_{11}+a_{m 2} b_{2 1}+\cdots+a_{m p} b_{p 1} & \cdots & a_{m 1} b_{1 n}+a_{m 2} b_{2 n}+\cdots+a_{m p} b_{p n} \end{bmatrix} =\left [\sum_{k=1}^{p} a_{i k} b_{k j} \right ]_{m \times n} \]

    注:

    一般简写为 \(A \cdot B = AB\)

  • \(A\)\(x\) 的乘积计算,将 \(x\) 看做一个 \(p \times 1\)​ 的矩阵,用矩阵乘法法则计算即可,即 \[ Ax = \left [\sum_{k=1}^{p} a_{i k} x_k \right ]_{m \times p} \]

  • \(\lambda\)\(A\) (或 \(x\))的乘积表示为 \[ \lambda A = [\lambda a_{ij}]_{m\times p} \]

2.1.2. 常用法则

2.1.2.1. 标量对矩阵

\[ \begin{aligned} (\lambda \mu) A&=\lambda(\mu A) \\ (\lambda+\mu) A&=\lambda A+\mu A \\ \lambda(A+B)&=\lambda A+\lambda B \end{aligned} \]

2.1.2.2. 矩阵对矩阵

\[ \begin{aligned} (A+B)C &= AC + BC \\ A(B+C) &= AB+AC \\ (A B) C&=A(B C) \\ \lambda(A B)&=(\lambda A)B=A(\lambda B) \\ A E&=E A=A \end{aligned} \]

2.1.2.3. 转置

\[ \begin{aligned} (A+B)^T &= A^T + B^T \\ (ABC\cdots)^T &= \cdots C^TB^TA^T \end{aligned} \]

2.1.2.4. 逆

\[ \begin{aligned} (A^{-1})^T &= (A^T)^{-1} \\ (ABC\cdots)^{-1} &= \cdots C^{-1}B^{-1}A^{-1} \\ (I + A^{-1})^{-1} &= A(A + I)^{-1} \\ A^{-1} + B^{-1} &= A^{-1} (A + B) B^{-1} \end{aligned} \]

2.1.2.5. 迹

\[ \begin{aligned} \tr({A}) &=\tr\left({A}^{T}\right) \\ \tr({A B}) &=\tr({B A}) \\ \tr({A}+{B}) &=\tr({A})+\tr({B}) \\ \tr({A B C}) &=\tr({B C A})=\tr({C A B}) \\ {a}^{T} {a} &=\tr\left({a a}^{T}\right) \end{aligned} \]

2.1.2.6. 行列式

\[ \begin{aligned} \operatorname{det}(c {A}) &=c^{n} \operatorname{det}({A}) \\ \operatorname{det}\left({A}^{T}\right) &=\operatorname{det}({A}) \\ \operatorname{det}({A B}) &=\operatorname{det}({A}) \operatorname{det}({B}) \\ \operatorname{det}\left({A}^{-1}\right) &=1 / \operatorname{det}({A}) \\ \operatorname{det}\left({A}^{n}\right) &=\operatorname{det}({A})^{n} \\ \operatorname{det}\left({I}+{\lambda \theta}^{T}\right) &=1+{\lambda}^{T} {\theta} \end{aligned} \]

2.2. 哈达玛(Hadamard) 积

又称基本积,或点积

2.2.1. 基本定义

  • \(A,B\) 均为 \(m\times n\) 的矩阵

  • \(A\)\(B\) 的哈达玛积表示为 \[ A \circ B = \begin{bmatrix} a_{11} b_{11} & a_{12} b_{12} & \cdots & a_{1 n} b_{1 n} \\ a_{21} b_{21} & a_{22} b_{22} & \cdots & a_{2 n} b_{2 n} \\ \vdots & \vdots & & \vdots \\ a_{m 1} b_{m 1} & a_{m 2} b_{m 2} & \cdots & a_{m n} b_{m n} \end{bmatrix} = [a_{ij}b_{ij}]_{m \times n} \]

2.3. 克罗内克(Kronecker)积

2.3.1. 基本定义

  • \(A=A_{m\times n},B=B_{p \times q}\)

  • \(A\)\(B\) 的克罗内克积表示为 \[ A \otimes B=\begin{bmatrix} a_{11} B & \cdots & a_{1 n} B \\ \vdots & \ddots & \vdots \\ a_{m 1} B & \cdots & a_{m n} B \end{bmatrix} = [a_{ij}B]_{mp \times nq} \]

2.4. 求导

2.4.1. 基本定义

设:

  • \(\lambda,\theta\) 是一个标量
  • \(x = x_{k \times 1},y = y_{l \times 1}\)​​​ 是一个向量
  • \(X=X_{m\times n},Y=Y_{p \times q}\)​ 是一个矩阵

标量 \(\theta\) 向量 \(y\)​​ 矩阵 \(Y\)
标量 \(\lambda\) $ $ \(\left[ \frac{\partial(y_a)}{\partial(\lambda)} \right]_{l \times 1}\)​​​ \(\left[ \frac{\partial(Y_{ab})}{\partial(\lambda)} \right]_{p \times q}\)​​
向量 \(x\) \(\left[ \frac{\partial(\theta)}{\partial(x_i)} \right]_{k \times 1}\)​​ \(\left[ \frac{\partial(y_a)}{\partial(x_i)} \right]_{l \times k}\)​​​​ \(\left[ \frac{\partial(Y_{ab})}{\partial(x_i)} \right]_{pk \times q}\)​​​​
矩阵 \(X\) \(\left[ \frac{\partial(\theta)}{\partial(X_{ij})} \right]_{m \times n}\) \(\left[ \frac{\partial(y_a)}{\partial(X_{ij})} \right]_{ml \times n}\)​​​​​​​​​ \(\left[ \frac{\partial(Y_{ab})}{\partial(X_{ij})} \right]_{mp \times nq}\)​​​

注:

  • 标量、向量、矩阵间的求导都是逐元素求导,然后按照分子布局(numerator layout)和分母布局(denominator layout )两种布局策略对求导后的值重新排列。布局只影响元素的排列情况,不影响求导的实际运算,两种布局的结果互为转置。
  • 上面给出的都是默认布局的求导情况。
  • 默认布局的判断:“向量或矩阵” 与 “标量” 间求导,取向量或矩阵一侧布局,例如分子标量,分母向量,取分母布局,即与分母同维;“矩阵、向量”间求导,这种情况其实没有严格意义上的分子或分母布局,因为这种情况下的结果应该为一个3维或4维的张量,但为了计算便利,将其排列为一个矩阵形式,所以默认布局为对应维度相乘。

2.4.2. 常用法则

2.4.2.1. 微分法则

\[ \begin{aligned} \partial {A} &=0 \\ \partial(\alpha {X}) &=\alpha \partial {X} \\ \partial({X}+{Y}) &=\partial {X}+\partial {Y} \\ \partial \left (\sum_i X_i \right ) &= \sum_i \partial(X_i)\\ \partial(\tr({X})) &=\tr(\partial {X}) \\ \partial({X Y}) &=(\partial {X}) {Y}+{X}(\partial {Y}) \\\partial({X} \circ {Y}) &=(\partial {X}) \circ {Y}+{X} \circ(\partial {Y}) \\ \partial({X} \otimes {Y}) &=(\partial {X}) \otimes {Y}+{X} \otimes(\partial {Y}) \\ \partial\left({X}^{-1}\right) &=-{X}^{-1}(\partial {X}) {X}^{-1} \\ \partial(\operatorname{det}({X})) &=\tr(\operatorname{adj}({X}) \partial {X}) \\ \partial(\operatorname{det}({X})) &=\operatorname{det}({X}) \tr\left({X}^{-1} \partial {X}\right) \\ \partial(\ln (\operatorname{det}({X}))) &=\tr\left({X}^{-1} \partial {X}\right) \\ \partial {X}^{T} &=(\partial {X})^{T} \\ \partial {X}^{H} &=(\partial {X})^{H} \end{aligned} \]

2.4.2.2. 基础法则

\[ \begin{aligned} \frac{\partial {x}^{T} {a}}{\partial {x}} &=\frac{\partial {a}^{T} {x}}{\partial {x}}={a} \\ \frac{\partial {a}^{T} {X} {b}}{\partial {X}} &={a b}^{T} \\ \frac{\partial {a}^{T} {X}^{T} {b}}{\partial {X}} &={b a}^{T} \\ \frac{\partial {a}^{T} {X} {a}}{\partial {X}} &=\frac{\partial {a}^{T} {X}^{T} {a}}{\partial {X}}={a} {a}^{T} \\ \frac{\partial {x}^{T} {B} {x}}{\partial {x}}&=\left({B}+{B}^{T}\right) {x} \\ \frac{\partial {b}^{T} {X}^{T} {X} {c}}{\partial {X}}&={X}\left({b c}^{T}+{c b}^{T}\right) \end{aligned} \]

2.4.2.3. 迹

\[ \begin{aligned} \frac{\partial}{\partial {X}} \tr\left({X}^{2}\right) &=2 {X}^{T} \\ \frac{\partial}{\partial {X}} \tr\left({X^TX}\right) &=2 {X} \\ \frac{\partial}{\partial {X}} \tr\left({X}^{2} {B}\right) &=({X B}+{B X})^{T} \\ \frac{\partial}{\partial {X}} \tr\left({X}^{T} {B} {X}\right) &={B} {X}+{B}^{T} {X} \\ \frac{\partial}{\partial {X}} \tr\left({X B X}^{T}\right) &={X B}^{T}+{X B} \\ \frac{\partial}{\partial {X}} \tr({A X B X}) &={A}^{T} {X}^{T} {B}^{T}+{B}^{T} {X}^{T} {A}^{T} \end{aligned} \]

2.4.2.4. 链式法则

  • \(x \rightarrow f_1 \rightarrow \cdots \rightarrow f_n \rightarrow y\)​ 型 \[ \frac{\partial y }{\partial x} = \frac{\partial y }{\partial f_n} \frac{\partial f_n }{\partial f_{n-1}}\cdots \frac{\partial f_1 }{\partial x} \]

  • \(x \rightarrow f_1 \rightarrow \cdots \rightarrow f_n \rightarrow \theta\)​ 型 \[ \frac{\partial \theta }{\partial x^T} = \frac{\partial \theta }{\partial f_n^T} \frac{\partial f_n }{\partial f_{n-1}}\cdots \frac{\partial f_1 }{\partial x} \]\[ \frac{\partial \theta }{\partial x} = (\frac{\partial f_n }{\partial f_{n-1}}\cdots \frac{\partial f_1 }{\partial x})^T\frac{\partial \theta }{\partial f_n} \]

  • \(X \rightarrow F \rightarrow \theta\)​​ 型 \[ \frac{\partial \theta }{\partial X_{ij}} = \sum _{k,l} \frac{\partial \theta }{\partial F_{kl}} \frac{\partial F_{kl} }{\partial X_{ij}} = \tr \left( (\frac{\partial \theta }{\partial F})^T \frac{\partial F }{\partial X_{ij}}\right) \]

    连续的矩阵求导并没有通用的链式法则,上面展示的只是连续两个矩阵求导的法则,对于连续3个矩阵求导并不适用

  • \(X \rightarrow \lambda_1 \rightarrow \cdots \rightarrow \lambda_n \rightarrow \theta\)​ 型 \[ \frac{\partial \theta }{\partial X} = \frac{\partial \theta }{\partial \lambda_n} \frac{\partial \lambda_n }{\partial \lambda_{n-1}}\cdots \frac{\partial \lambda_1 }{\partial X} \]

  • \(\theta \leftarrow Y = AX+B\)\[ \frac{\partial \theta }{\partial X} = A^T \frac{\partial \theta }{\partial Y} \]

  • \(\theta \leftarrow y = Ax+b\)\[ \frac{\partial \theta }{\partial x} = A^T \frac{\partial \theta }{\partial y} \]

  • \(\theta \leftarrow Y = XA+B\)\[ \frac{\partial \theta }{\partial X} = \frac{\partial \theta }{\partial Y}A^T \]

  • \(\theta \leftarrow y = Xa+b\)\[ \frac{\partial \theta }{\partial X} = \frac{\partial \theta }{\partial y}a^T \]

3. references

The Matrix Cookbook

Matrix calculus

《矩阵分析与应用》张贤达


评论
  目录