1. 基本定义
名称 | 数学记法 | 定义 |
---|---|---|
样本空间 | \(S\) | 随机实验中所有可能结果组成的集合 |
随机事件或事件 | \(A\) | 样本空间中满足一定条件的结果组成的集合 |
基本事件 | 样本空间中一个样本组成的单点集合 | |
小概率事件 | 根据不同的置信度(10%、5%或0.1%),小于预设的置信度(常取5%)的发生概率的事件 | |
频数 | \(n_A=\sum_A I(S=A)\) | \(N\) 次实验中,事件 \(A\) 发生的次数 |
频率 | \(f_n(A) = n_A / N\) | \(N\) 次实验中,事件 \(A\) 的频数与实验次数的比值 |
概率 | \(p=P(A)\) | 表征随机实验中事件 \(A\) 发生的可能性的大小 |
离散型 | 样本空间包含有限个数的元素,对应的随机实验又称古典概型 | |
非离散型 | 如果没特殊说明,一般指连续型,样本空间包含无限个数的元素 | |
条件概率 | \(P(B\|A)\) | 事件 \(A\) 发生的条件下,事件 \(B\) 发生的概率 |
联合概率 | \(P(AB)\) | 事件 \(A\) 和事件 \(B\) 一起发生的概率 |
相互独立 | 满足 \(P(AB) = P(A)P(B)\) | |
随机变量 | \(X=X(s)=s\) | 是一个实值函数,将样本空间的每一个样本点 \(s\) 表示为一个实值 |
n维随机变量 | \((X_1,X_2,\cdots,X_n)\) | |
分布律 | \(P(A) = P\{X=x_k\}=P(X=x_k)\) | 对于离散型随机变量, \(X\) 每个可能的取值 \(x_k\) ,使得事件 \(A=\{X=x_k\}\) 发生的概率(注:连续型随机变量的分布律都为0) |
分布函数 | \(F_X(x)=F(x)=P(X\leq x)\) | 随机变量落于一个区间内的概率 |
联合分布函数 | \(F(x_1,x_2,\cdots,x_n)\) | |
边缘分布函数 | \(F_{X_k}(x_k)=F(\infty,\cdots,x_k,\cdots,\infty)\) | 联合分布各维度的分布函数 |
概率密度函数或概率密度 | \(f_X(x)=f(x)=p(x)\) | 使 \(F(x) = \int_x f(x) dx = \sum_x f(x)\)成立(注:求导为连续型,求和为离散型,离散型的概率密度就是其分布律) |
联合概率密度 | \(f(x_1,x_2,\cdots,x_n)\) | 使\(F(x_1,x_2,\cdots,x_n)=\int\cdots\int f(x_1,x_2,\cdots,x_n) dx_1\cdots dx_n\) 成立 |
边缘概率密度 | \(f_{X_k}(x_k)=\int f(x_1,x_2,\cdots,x_n)dx_k\) | 联合概率密度各维度的概率密度 |
数学期望或期望或均值 | \(E[X] = E(X)=\int_x xf(x)dx = \sum_x xf(x)\) | 随机变量平均取值的大小 |
方差 | \(D(X)=\operatorname{Var}(X)=E\left\{[X-E(X)]^{2}\right\} \\ =E\left(X^{2}\right)-[E(X)]^{2}\) | 衡量随机变量离散程度,表示 \(g(X) = (X-E(X))^2\) 的数学期望 |
标准差或均方差 | \(\sigma(x) = \sqrt{D(X)}\) | |
协方差 | \(\operatorname{Cov}(X, Y)=E\{[X-E(X)][Y-E(Y)]\}\\ =E(X Y)-E(X) E(Y)\) | 随件变量 \(X\) 与 \(Y\) 间的相关性 |
相关系数 | \(\rho_{X Y}=\frac{\operatorname{Cov}(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}}\) | |
\(k\) 阶原点矩 | \(E(X^k)\) | |
\(k\) 阶中心矩 | \(E\left\{[X-E(X)]^{k}\right\}\) | |
\(k+l\) 阶混合矩 | \(E(X^kY^l)\) | |
协方差矩阵 | \(C=[\operatorname{Cov}(X_i, X_j)]_{n \times n}\) | 对于 \(n\) 维随机变量,由 \(n^2\) 个协方差组成的矩阵 |
2. 概率计算规律
2.1. 概率
\[ \begin{aligned} P(A B)&=P(B \mid A) P(A) \\ P(A B C)&=P(C \mid A B) P(B \mid A) P(A) \\ P\left\{x_{1}<X \leqslant x_{2}\right\}&=F\left(x_{2}\right)-F\left(x_{1}\right) \end{aligned} \]
2.2. 概率密度
若 \(Y= g(x)\),\(h(y)\) 是 \(g(x)\) 的反函数,则 \[ f_Y(y) = f_X[h(y)]|h'(y)| \]
若 \(Z = X + Y\),则 \[ f_{X+Y}(z)=\int_{-\infty}^{\infty} f(z-y, y) \mathrm{d} y = \int_{-\infty}^{\infty} f(x, z-x) \mathrm{d} x \] 若 \(X\) 和 \(Y\) 相互独立,则 \[ f_{X+Y}(z)=\int_{-\infty}^{\infty} f_{X}(z-y) f_{Y}(y) \mathrm{d} y = \int_{-\infty}^{\infty} f_{X}(x) f_{Y}(z-x) \mathrm{d} y \]
若 \(Z=Y/X\),则 \[ f_{Y / X}(z)=\int_{-\infty}^{\infty}|x| f(x, x z) \mathrm{d} x \] 若 \(X\) 和 \(Y\) 相互独立,则 \[ f_{Y / X}(z)=\int_{-\infty}^{\infty}|x| f_{X}(x) f_{Y}(x z) \mathrm{d} x \]
若 \(Z = XY\) ,则 \[ f_{X Y}(z)=\int_{-\infty}^{\infty} \frac{1}{|x|} f\left(x, \frac{z}{x}\right) \mathrm{d} x \] 若 \(X\) 和 \(Y\) 相互独立,则 \[ f_{X Y}(z)=\int_{-\infty}^{\infty} \frac{1}{|x|} f_{X}(x) f_{Y}\left(\frac{z}{x}\right) \mathrm{d} x \]
2.3. 期望
\[ \begin{aligned} E(c) &= c \\ E(cX) &= cE(X) \\ E(X+Y) &= E(X) +E(Y) \\ E(XY) &= E(X)E(Y)\quad \text{(X,Y相互独立)} \end{aligned} \]
- 若 \(Y=g(X)\),则 \[ E(Y) = E(g(X)) = \sum_x g(x)f(x) = \int_x g(x)f(x)dx \]
2.4. 方差
\[ \begin{aligned} D(c) &= 0 \\ D(cX) &= c^2D(X) \\ D(X+Y)&=D(X)+D(Y)+2 E\{(X-E(X))(Y-E(Y))\} \\ D(X+Y)&=D(X)+D(Y)+2 \operatorname{Cov}(X, Y) \end{aligned} \]
2.5. 协方差
\[ \begin{aligned} \operatorname{Cov}(X, Y)&=\operatorname{Cov}(Y, X) \\ \operatorname{Cov}(X, X)&=D(X)\\ \operatorname{Cov}(a X, b Y)&=a b \operatorname{Cov}(X, Y) \\ \operatorname{Cov}\left(X_{1}+X_{2}, Y\right)&=\operatorname{Cov}\left(X_{1}, Y\right)+\operatorname{Cov}\left(X_{2}, Y\right) \end{aligned} \]
3. 频数派与贝叶斯派
3.1. 贝叶斯理论
假设
- \(X=x\) 是系统输入的随机变量
- \(Y=\theta\) 是系统参数的随机变量
贝叶斯派认为,随机事件的概率分布服从如下的贝叶斯公式 \[ P(Y|X) = \frac{P(Y) \cdot P(X|Y)}{P(X)} \] 其中,\(P(X)\) 是边缘概率,\(P(Y)\) 是先验概率,\(P(Y|X)\) 是后验概率,\(P(X|Y)\) 是似然概率。
\(P(X)\) 一般是一个已知常量,一般表示一个归一项,可通过如下公式计算 \[ P(X) = \sum_i P(XY_i) = \sum_i P(X|Y_i)P(Y_i) \]
上式的具体含义可以理解为 \(后验概率 = (先验概率 * 似然性)/标准化常量\)
3.2. 相同点
- 两个学派的最终目标都是求参数 $ $
- 当数据量趋向无穷的时候,两者得到的结果是一样的;当不存在先验知识时,两者是等价的。所以两者是对立统一的,或者说频率的方法是贝叶斯方法的极限。这一点在下面的不同点中会有所体现。
3.3. 不同点
频率学派是对事件进行建模,贝叶斯学派是对参数的建模
频率派认为硬币本身是确定的,参数是不变的,所以我们需要解决的是似然函数 \(p(x| \theta)\)。即,已知 \(p(x| \theta)\) 是关于随机变量 \(x\) 的概率函数, \(x\) 取决于 \(\theta\) ,只要求出 \(\theta\) ,即可求 \(x\)。
但我们要求的其实并不是 \(x\)。因为囿于人类知识有限,我们其实不能知晓参数的具体值(如果知道了,就不需要求参数\(\theta\) 了),即 $ $ 是固定但未知的,而我们最终要求其实还是这个未知的参数 \(\theta\)。
为此,我们通过做实验假设 \(x\) 已经确定,然后通过计算关于 \(\theta\) 的似然函数 \(p(x| \theta)\) 的最大似然估计(Maximum likelihood estimation,MLE)来确定 \(\theta\) ,即 \[ \theta = \arg \max_\theta p(x|\theta) \]
贝叶斯学派认为事件既然已经发生了,事实是不变的,所以 \(x\) 是固定的。所以我们需要解决的是后验概率 \(p( \theta|x)\)。即,已知 \(p( \theta|x)\) 是关于随机变量 \(\theta\) 的概率函数, \(\theta\) 取决于 \(x\) ,通过观察 \(x\) ,即可求 \(\theta\)。
所以对参数 \(\theta\)的推断为计算关于 \(\theta\) 的最大后验估计(Maximum a posteriori estimation,MAE),按照贝叶斯公式,又由于 \(p(x)\) 是一个常数项,所以最终的求解式为 \[ \theta = \arg \max_\theta p(x|\theta)p(\theta) \] > 注: > > - 上式可以理解为,在基于事实 \(x\) 条件下,通过给定的 \(\theta\) 的先验分布,给出其置信度(似然概率),计算出后验 \(\theta\),然后用后验更新先验 \(\theta\) ,直到收敛。 > > - \(p(\theta)\) 可以理解为是一个正则项,因为一般MAE都会加上 \(\log\) 对数,即 > \[ > \begin{aligned} > \theta &= \arg \max_\theta p(x|\theta)p(\theta) \\ &= \arg \max_\theta \log p(x|\theta)p(\theta) \\ &=\arg \max_\theta \left(\log p(x|\theta) + \log p(\theta) \right) > \end{aligned} > \] > 可以看出,\(\log p(\theta)\) 实际上就是一个正则化项 > >
可以简单认为频率学派最终目标是最大似然估计,是以求导为基础;贝叶斯学派最终目标是最大后验估计,是以积分为基础。由于求导比积分简便,所以尽管贝叶斯理论出现比频率派要早,发展一直缓慢。如今绝大多数的理论都是以频率学派为基础的,包括现在流行的神经网络。而贝叶斯学派的理论有了较大的发展,还是直到后面的MCMC方法的提出及计算机技术的发展。如今,深度学习也逐渐向贝叶斯派靠拢,发展出一些基于贝叶斯理论的模型,例如贝叶斯神经网络。
3.4. 举例说明
假设这是一个抛硬币的事件,正反面朝上的概率为 \(p(x| \theta)\),其中,\(x\) 是硬币正面还是反面朝上的事件,\(\theta\) 是硬币的影响事件(例如材质分布的均匀程度)的参数,两个学派的目标都是求参数 $ $,那么:
假设 \(p(\theta) = \theta\),抛10次硬币,7次朝上,3次朝下,则似然函数 \(p(x| \theta) = \theta^7(1-\theta)^3\) ,求解可得当 \(\theta=0.7\) 时,似然函数值最大。
假设已知 \(p(\theta)\) 服从 \(N(0.5,0.1)\) 的正态分布(我们不能假设先验条件是正面朝上的概率为0.5,因为如果概率已经知道,就没有计算后验的必要了,但是我们可以假设有0.5的置信度确信正面朝上的概率为0.5),抛10次硬币,7次朝上,3次朝下,后验概率 \(p(\theta | x) \propto p(x|\theta)p(\theta) = \theta^7(1-\theta)^3N(0.5,0.1)\),在 \(\theta \approx 0.55\) 处,后验概率最大。
4. references
《概率论与数理统计(第四版)》浙江大学