常用概率分布


1. 基础假设

设:

  • \(S\)​ 为样本空间,实际应用中表示模型的输入;
  • \(n\) 为实验次数,\(n=1\) 表示单次实验,实际应用中表示模型的输入的维度;
  • \(X\)​​​ 为随机变量,实际应用中表示模型的输出;
  • \(x\) 为随机变量中的具体取值,实际应用中表示模型的一次预测输出;
  • \(f(X=x)\)​​ 表示随机变量 \(X\)​​ 的概率密度​;

2. 二项分布(Binomial distrubution)

常用于离散型数据,记作 \[ X \in \mathbb{R} \sim B(n,p) \] 其中,

  • \(X\)​ 表示 \(n\)​​ 次实验中成功的次数
  • \(s \in \mathbb{R}^{n}\)​​​,由于 \(s_i \in \{0,1\}\)​​​ ,故又称0-1分布两点分布
  • \(p\)​​​​为单次成功的概率,实际运用中,如果用\(1\)​​​表示成功事件,则 \(p\)​​​ 表示 \(s=1\)​​​​ 的概率,即 \(p=\frac{\sum_{i=1}^N I(s_i=1)}{N}\)​​​​​

2.1. 多重实验

概率密度

\(n\) 次实验中有 \(k\) 次成功的概率为 \[ f(X=k \mid n,p) = C_n^k p^k (1-p) ^{n-k},k \in \{1,2,...,n\} \] 其中,\(C_n^k = \frac{n!}{k!(n-k)!}\)

注:

  • ios推荐的标准写法是 \(C_n^k\)\(\begin{pmatrix} n \\ k\end{pmatrix}\),但一些要求不太严格的场合也会使用 \(C_k^n\)\(\begin{pmatrix} k \\ n\end{pmatrix}\) 表示
  • 如果维数过高,实际计算时容易出现精度向下溢出的问题,所以一般会外加一层log对数,将其转换成累加运算。

期望与方差 \[ E(X) = np \\ D(x) = np(1-p) \]

2.2. 单次分布

简化为伯努利分布(bernouli distribution)

概率密度 \[ \begin{array}{l} f(X=0 \mid p)=1-p \\ f(X=1 \mid p)=p \end{array} \] 合并成一条公式 \[ f(X=k \mid p) = p^{k} (1-p)^{1-k} ,k \in \{0,1\} \]

期望与方差 \[ E(X) = p \\ D(X) = p(1-p) \]

3. 多项式分布(Multinomial distribution)

是二项分布的扩展,常用于离散型数据,记作

\[ X \in \mathbb{R}^K \sim \text{Mult}(n,p) \]

其中,

  • \(K\) 表示类别集合的大小
  • \(s \in \mathbb{R}^{n}\)​​​​​​​​​​,且 \(s_{i} \in \{1, \cdots ,K\}\)​​​​​​​
  • \(p\)​​​​​​​​​​​ 表示单次实验中 \(x=k\)​​​​​​​​​​​ 的概率,即 \(p_k = \frac{\sum_{i=1}^N I(s_{i}=k)}{N}\)​​​​​​​​​​​,且 \(\sum_{k=1}^K p_k = 1\)​​​​​​​​​​​​​

3.1. 多重实验

概率密度 \[ f\left(X_{1}=m_{1}, X_{2}=m_{2}, \ldots, X_{K}=m_{K} \mid p_{1}, p_{2}, \ldots, p_{K}, n\right)=\frac{n !}{m_{1} ! m_{2} ! \ldots m_{K} !} \prod_{i=1}^{K} p_{i}^{m_{k}} \] 其中,

  • \(m_k\)​​​​​ 表示命中第 \(k\)​​​​​ 个类别的次数,即 \(m_k = \sum I(s=k)\)​​​​​​​,且 \(\sum_{k=1}^{K} m_k=n\)​​​​​​​

注:

  • 如果维数过高,实际计算时容易出现精度向下溢出的问题,所以一般会外加一层log对数,将其转换成累加运算。

3.2. 单次实验

简化为类别分布(categorical disturibution)

概率密度 \[ f(X = m_k \mid p_1,\cdots , p_K) = \prod_{i=1}^K p_i^{m_k} \]

4. 正态分布(Normal distribution)

又称为高斯分布(Gaussian distribution),常用于连续变量,记为

\[ X \sim N(\mu, \Sigma) \] 其中,

  • \(s \in \mathbb{R}^{n \times m}\)​,表示做了 \(n\)​ 次实验,每次实验取样了 \(m\)​ 次,实际应用中,使 \(X \in \mathbb{R}^{n \times m}\)​​,表示每次取样的预测概率
  • \(\mu \in \mathbb{R}^{m}\)​ 为 \(x\)​ 各个维度的均值矩阵\(\Sigma \in \mathbb{R}^{m \times m}\)​ (注:这个是希腊字母 \(\sigma\)​ 的大写,不是求和符号)为 \(x\)​ 的协方差矩阵

4.1. 多重实验

概率密度 \[ f(X=x|\mu, \Sigma) = \frac{1}{(2 \pi) ^ {n/2} |\Sigma| ^ {1/2}} \exp \left (-\frac{1}{2}(x-\mu) \right) ^ T \Sigma ^ {-1} (x-\mu) \] 其中,

  • \(|\Sigma|\) 表示协方差矩阵的行列式

期望与协方差矩阵 \[ E(X) = \mu \\ C(X) = \Sigma \]

4.2. 单次实验

简化为一维正态分布 \(N(\mu, \sigma^2)\)​​​

概率密度 \[ f(X=x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2}) \]

期望与方差 \[ E(X) = \mu \\ D(X) = \sigma^2 \]

4.3. 标准正态分布

\(\mu=0,\Sigma=I\)​​​ 时,可以简化为标准正态分布 \(N(0,I)\)​​​

概率密度 \[ f(X=x) = \frac{1}{\sqrt{2\pi}}\exp(-\frac{x^2}{2}) \] > 注: > > - 如果 \(X \sim N(\mu,\Sigma)\) ,则 \(Y = (X-\mu)\Sigma^{-1} \sim N(0,I)\) > - 当 \(\Sigma \rightarrow 0\) 时,正态分布退化成二项分布​

5. 狄利克雷分布(Dirichlet distrubution)

常用于带隐变量的数据,记作

\[ \Theta \sim \text{Dir}(\alpha) \]

注:

这是一种多元连续随机变量概率密度,即设可观测分布为 \(X\),则 \(X\)\(\Theta\) 控制,而 \(p\)\(\Theta\) 控制,即狄利克雷分布可以理解为是一种分布的分布

为了说明狄利克雷分布的优点,首先得引出共轭分布的概念:如果同一样本的后验分布与先验分布属于同类,则先验分布与后验分布互为共轭分布(conjugate distribution),先验分布称为共轭先验(conjugate prior)。作为先验分布的参数又称为超参数。

例如,假设 \(P(X)\)​ 服从多项分布,先验分布 \(P(\theta)\)​ 服从狄利克雷分布,若后验分布 \(P(\theta|X)\)​ 也服从狄利克雷分布(后面有相应的推导),则称 \(P(\theta)\)​ 是 \(P(X)\)​ 的共轭先验,\(P(\theta|X)\)​ 是 \(P(X)\)​​ 的共轭后验(一般这个概念很少用到)

所以,狄利克雷分布的优点是,只要输入时多项分布,可以直接从先验分布推导出后验分布,方便计算。

5.1. 单次实验

一般假设狄利克雷分布的多次实验是相互独立的,所以只考虑单次实验的情况即可

概率密度 \[ f(\Theta=\theta \mid \alpha)=\frac{1}{B(\alpha)} \prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1} \]

其中,

  • \(B(\alpha)\)​​​ 是规范化因子,称为多元贝塔函数(或扩展的贝塔函数),定义为 \[ B(\alpha)=\frac{\prod_{i=1}^{K} \Gamma\left(\alpha_{i}\right)}{\Gamma\left(\sum_{i=1}^{K} \alpha_{i}\right)} \] 其中,\(\Gamma(s)\)​​​ 是伽马函数,定义为 \[ \Gamma(s)=\int_{0}^{\infty} x^{s-1} e^{-x} d x, s>0 \]

注:

  • 伽马函数具有以下性质 \[ \Gamma(s + 1) = s \Gamma(s) \]\(s\) 是自然数时,有 \[ \Gamma(s + 1) = s! \]

  • 多元贝塔函数的积分表示 \[ B(\alpha)=\int \prod_{i=1}^{k} \theta_{i}^{\alpha_{i}-1} \mathbb d \theta \] 这是因为 \[ \begin{aligned} \int p(\theta \mid \alpha) \mathbb d \theta &= \int \frac{\Gamma\left(\sum_{i=1}^{k} \alpha_{i}\right)}{\prod_{i=1}^{k} \Gamma\left(\alpha_{i}\right)} \prod_{i=1}^{k} \theta_{i}^{\alpha_{i}-1} \mathbb d \theta \\ &=\frac{\Gamma\left(\sum_{i=1}^{k} \alpha_{i}\right)}{\prod_{i=1}^{k} \Gamma\left(\alpha_{i}\right)} \int \prod_{i=1}^{k} \theta_{i}^{\alpha_{i}-1} \mathbb d \theta \\ &= \frac{1}{B(\alpha)} \int \prod_{i=1}^{k} \theta_{i}^{\alpha_{i}-1} =1 \end{aligned} \]

  • 假设变量 \(X \sim \text{Mult}(n,\Theta),\Theta \sim \text{Dir}(\alpha)\)​,则 \[ f(X=m_k \mid \theta) = \prod_{i=1}^K \theta_{i}^{m_k} \\ f(\Theta = \theta \mid \alpha)=\frac{1}{B(\alpha)} \prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1} \] 根据贝叶斯推断,得 \[ \begin{aligned} f(\theta \mid m_k, \alpha) &=\frac{f(m_k \mid \theta) f(\theta \mid \alpha)}{f(m_k \mid \alpha)} \\ &=\frac{\prod_{i=1}^K \theta_{i}^{m_k} \cdot \frac{1}{B(\alpha)} \prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1}}{\int \prod_{i=1}^K \theta_{i}^{m_k} \cdot \frac{1}{B(\alpha)} \prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1} \mathbb d \theta} \\ &=\frac{1}{B(\alpha+m_k)} \prod_{i=1}^{K} \theta_i^{\alpha_{i}+m_{k}-1} \\ &=\operatorname{Dir}( \alpha+m_k) \end{aligned} \] 所以狄利克雷分布是多项分布的共轭先验

    另外,由于 \(\alpha \leftarrow \alpha + m_k\),其后验分布参数 $ $​ 可以直接计算得出,因此也把 \(\alpha\)​ 叫做先验伪计数(prior pseudo-counts)

6. Beta分布

贝塔分布是狄利克雷分布的特殊情况,记作 \[ X \sim \text{Be} (s,t) \]

概率密度 \[ f(X=x|s,t)=\left\{\begin{array}{l} \frac{1}{B(s, t)} x^{s-1}(1-x)^{t-1} &, 0 \leq x \leq 1 \\ 0 &, \text { otherwise } \end{array}\right. \] 其中,

  • \(s>0,t>0\)

  • \(B(s, t)\)​​ 是贝塔函数,定义为 \[ B(s, t)=\frac{\Gamma(s) \Gamma(t)}{\Gamma(s+t)} = \int_{0}^{1} x^{s-1}(1-x)^{t-1} d x \]\(s,t\)是自然数时,\(B(s, t)\) 可表示为 \[ B(s, t)=\frac{(s-1) !(t-1) !}{(s+t-1) !} \]

Beta分布是二项式分布的共轭先验


评论
  目录