1. 基础假设
设:
- \(S\) 为样本空间,实际应用中表示模型的输入;
- \(n\) 为实验次数,\(n=1\) 表示单次实验,实际应用中表示模型的输入的维度;
- \(X\) 为随机变量,实际应用中表示模型的输出;
- \(x\) 为随机变量中的具体取值,实际应用中表示模型的一次预测输出;
- \(f(X=x)\) 表示随机变量 \(X\) 的概率密度;
2. 二项分布(Binomial distrubution)
常用于离散型数据,记作 \[ X \in \mathbb{R} \sim B(n,p) \] 其中,
- \(X\) 表示 \(n\) 次实验中成功的次数
- \(s \in \mathbb{R}^{n}\),由于 \(s_i \in \{0,1\}\) ,故又称0-1分布或两点分布
- \(p\)为单次成功的概率,实际运用中,如果用\(1\)表示成功事件,则 \(p\) 表示 \(s=1\) 的概率,即 \(p=\frac{\sum_{i=1}^N I(s_i=1)}{N}\)
2.1. 多重实验
概率密度
\(n\) 次实验中有 \(k\) 次成功的概率为 \[ f(X=k \mid n,p) = C_n^k p^k (1-p) ^{n-k},k \in \{1,2,...,n\} \] 其中,\(C_n^k = \frac{n!}{k!(n-k)!}\)
注:
- ios推荐的标准写法是 \(C_n^k\) 或 \(\begin{pmatrix} n \\ k\end{pmatrix}\),但一些要求不太严格的场合也会使用 \(C_k^n\) 或 \(\begin{pmatrix} k \\ n\end{pmatrix}\) 表示
- 如果维数过高,实际计算时容易出现精度向下溢出的问题,所以一般会外加一层log对数,将其转换成累加运算。
期望与方差 \[ E(X) = np \\ D(x) = np(1-p) \]
2.2. 单次分布
简化为伯努利分布(bernouli distribution)
概率密度 \[ \begin{array}{l} f(X=0 \mid p)=1-p \\ f(X=1 \mid p)=p \end{array} \] 合并成一条公式 \[ f(X=k \mid p) = p^{k} (1-p)^{1-k} ,k \in \{0,1\} \]
期望与方差 \[ E(X) = p \\ D(X) = p(1-p) \]
3. 多项式分布(Multinomial distribution)
是二项分布的扩展,常用于离散型数据,记作
\[ X \in \mathbb{R}^K \sim \text{Mult}(n,p) \]
其中,
- \(K\) 表示类别集合的大小
- \(s \in \mathbb{R}^{n}\),且 \(s_{i} \in \{1, \cdots ,K\}\)
- \(p\) 表示单次实验中 \(x=k\) 的概率,即 \(p_k = \frac{\sum_{i=1}^N I(s_{i}=k)}{N}\),且 \(\sum_{k=1}^K p_k = 1\)
3.1. 多重实验
概率密度 \[ f\left(X_{1}=m_{1}, X_{2}=m_{2}, \ldots, X_{K}=m_{K} \mid p_{1}, p_{2}, \ldots, p_{K}, n\right)=\frac{n !}{m_{1} ! m_{2} ! \ldots m_{K} !} \prod_{i=1}^{K} p_{i}^{m_{k}} \] 其中,
- \(m_k\) 表示命中第 \(k\) 个类别的次数,即 \(m_k = \sum I(s=k)\),且 \(\sum_{k=1}^{K} m_k=n\)
注:
- 如果维数过高,实际计算时容易出现精度向下溢出的问题,所以一般会外加一层log对数,将其转换成累加运算。
3.2. 单次实验
简化为类别分布(categorical disturibution)
概率密度 \[ f(X = m_k \mid p_1,\cdots , p_K) = \prod_{i=1}^K p_i^{m_k} \]
4. 正态分布(Normal distribution)
又称为高斯分布(Gaussian distribution),常用于连续变量,记为
\[ X \sim N(\mu, \Sigma) \] 其中,
- \(s \in \mathbb{R}^{n \times m}\),表示做了 \(n\) 次实验,每次实验取样了 \(m\) 次,实际应用中,使 \(X \in \mathbb{R}^{n \times m}\),表示每次取样的预测概率
- \(\mu \in \mathbb{R}^{m}\) 为 \(x\) 各个维度的均值矩阵,\(\Sigma \in \mathbb{R}^{m \times m}\) (注:这个是希腊字母 \(\sigma\) 的大写,不是求和符号)为 \(x\) 的协方差矩阵
4.1. 多重实验
概率密度 \[ f(X=x|\mu, \Sigma) = \frac{1}{(2 \pi) ^ {n/2} |\Sigma| ^ {1/2}} \exp \left (-\frac{1}{2}(x-\mu) \right) ^ T \Sigma ^ {-1} (x-\mu) \] 其中,
- \(|\Sigma|\) 表示协方差矩阵的行列式
期望与协方差矩阵 \[ E(X) = \mu \\ C(X) = \Sigma \]
4.2. 单次实验
简化为一维正态分布 \(N(\mu, \sigma^2)\)
概率密度 \[ f(X=x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2}) \]
期望与方差 \[ E(X) = \mu \\ D(X) = \sigma^2 \]
4.3. 标准正态分布
当 \(\mu=0,\Sigma=I\) 时,可以简化为标准正态分布 \(N(0,I)\)
概率密度 \[ f(X=x) = \frac{1}{\sqrt{2\pi}}\exp(-\frac{x^2}{2}) \] > 注: > > - 如果 \(X \sim N(\mu,\Sigma)\) ,则 \(Y = (X-\mu)\Sigma^{-1} \sim N(0,I)\) > - 当 \(\Sigma \rightarrow 0\) 时,正态分布退化成二项分布
5. 狄利克雷分布(Dirichlet distrubution)
常用于带隐变量的数据,记作
\[ \Theta \sim \text{Dir}(\alpha) \]
注:
这是一种多元连续随机变量概率密度,即设可观测分布为 \(X\),则 \(X\) 受 \(\Theta\) 控制,而 \(p\) 受 \(\Theta\) 控制,即狄利克雷分布可以理解为是一种分布的分布
为了说明狄利克雷分布的优点,首先得引出共轭分布的概念:如果同一样本的后验分布与先验分布属于同类,则先验分布与后验分布互为共轭分布(conjugate distribution),先验分布称为共轭先验(conjugate prior)。作为先验分布的参数又称为超参数。
例如,假设 \(P(X)\) 服从多项分布,先验分布 \(P(\theta)\) 服从狄利克雷分布,若后验分布 \(P(\theta|X)\) 也服从狄利克雷分布(后面有相应的推导),则称 \(P(\theta)\) 是 \(P(X)\) 的共轭先验,\(P(\theta|X)\) 是 \(P(X)\) 的共轭后验(一般这个概念很少用到)
所以,狄利克雷分布的优点是,只要输入时多项分布,可以直接从先验分布推导出后验分布,方便计算。
5.1. 单次实验
一般假设狄利克雷分布的多次实验是相互独立的,所以只考虑单次实验的情况即可
概率密度 \[ f(\Theta=\theta \mid \alpha)=\frac{1}{B(\alpha)} \prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1} \]
其中,
- \(B(\alpha)\) 是规范化因子,称为多元贝塔函数(或扩展的贝塔函数),定义为 \[ B(\alpha)=\frac{\prod_{i=1}^{K} \Gamma\left(\alpha_{i}\right)}{\Gamma\left(\sum_{i=1}^{K} \alpha_{i}\right)} \] 其中,\(\Gamma(s)\) 是伽马函数,定义为 \[ \Gamma(s)=\int_{0}^{\infty} x^{s-1} e^{-x} d x, s>0 \]
注:
伽马函数具有以下性质 \[ \Gamma(s + 1) = s \Gamma(s) \] 当 \(s\) 是自然数时,有 \[ \Gamma(s + 1) = s! \]
多元贝塔函数的积分表示 \[ B(\alpha)=\int \prod_{i=1}^{k} \theta_{i}^{\alpha_{i}-1} \mathbb d \theta \] 这是因为 \[ \begin{aligned} \int p(\theta \mid \alpha) \mathbb d \theta &= \int \frac{\Gamma\left(\sum_{i=1}^{k} \alpha_{i}\right)}{\prod_{i=1}^{k} \Gamma\left(\alpha_{i}\right)} \prod_{i=1}^{k} \theta_{i}^{\alpha_{i}-1} \mathbb d \theta \\ &=\frac{\Gamma\left(\sum_{i=1}^{k} \alpha_{i}\right)}{\prod_{i=1}^{k} \Gamma\left(\alpha_{i}\right)} \int \prod_{i=1}^{k} \theta_{i}^{\alpha_{i}-1} \mathbb d \theta \\ &= \frac{1}{B(\alpha)} \int \prod_{i=1}^{k} \theta_{i}^{\alpha_{i}-1} =1 \end{aligned} \]
假设变量 \(X \sim \text{Mult}(n,\Theta),\Theta \sim \text{Dir}(\alpha)\),则 \[ f(X=m_k \mid \theta) = \prod_{i=1}^K \theta_{i}^{m_k} \\ f(\Theta = \theta \mid \alpha)=\frac{1}{B(\alpha)} \prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1} \] 根据贝叶斯推断,得 \[ \begin{aligned} f(\theta \mid m_k, \alpha) &=\frac{f(m_k \mid \theta) f(\theta \mid \alpha)}{f(m_k \mid \alpha)} \\ &=\frac{\prod_{i=1}^K \theta_{i}^{m_k} \cdot \frac{1}{B(\alpha)} \prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1}}{\int \prod_{i=1}^K \theta_{i}^{m_k} \cdot \frac{1}{B(\alpha)} \prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1} \mathbb d \theta} \\ &=\frac{1}{B(\alpha+m_k)} \prod_{i=1}^{K} \theta_i^{\alpha_{i}+m_{k}-1} \\ &=\operatorname{Dir}( \alpha+m_k) \end{aligned} \] 所以狄利克雷分布是多项分布的共轭先验
另外,由于 \(\alpha \leftarrow \alpha + m_k\),其后验分布参数 $ $ 可以直接计算得出,因此也把 \(\alpha\) 叫做先验伪计数(prior pseudo-counts)。
6. Beta分布
贝塔分布是狄利克雷分布的特殊情况,记作 \[ X \sim \text{Be} (s,t) \]
概率密度 \[ f(X=x|s,t)=\left\{\begin{array}{l} \frac{1}{B(s, t)} x^{s-1}(1-x)^{t-1} &, 0 \leq x \leq 1 \\ 0 &, \text { otherwise } \end{array}\right. \] 其中,
\(s>0,t>0\)
\(B(s, t)\) 是贝塔函数,定义为 \[ B(s, t)=\frac{\Gamma(s) \Gamma(t)}{\Gamma(s+t)} = \int_{0}^{1} x^{s-1}(1-x)^{t-1} d x \] 当\(s,t\)是自然数时,\(B(s, t)\) 可表示为 \[ B(s, t)=\frac{(s-1) !(t-1) !}{(s+t-1) !} \]
Beta分布是二项式分布的共轭先验