常用概率统计基础


1. 基本定义

名称 数学记法 定义
样本空间 \(S\) 随机实验中所有可能结果组成的集合
随机事件事件 \(A\) 样本空间中满足一定条件的结果组成的集合
基本事件 样本空间中一个样本组成的单点集合
小概率事件 根据不同的置信度(10%、5%或0.1%),小于预设的置信度(常取5%)的发生概率的事件
频数 \(n_A=\sum_A I(S=A)\) \(N\)​ 次实验中,事件 \(A\)​ 发生的次数
频率 \(f_n(A) = n_A / N\) \(N\)​​ 次实验中,事件 \(A\)​​ 的频数与实验次数的比值
概率 \(p=P(A)\) 表征随机实验中事件 \(A\) 发生的可能性的大小
离散型 样本空间包含有限个数的元素,对应的随机实验又称古典概型
非离散型 如果没特殊说明,一般连续型,样本空间包含无限个数的元素
条件概率 \(P(B\|A)\) 事件 \(A\) 发生的条件下,事件 \(B\) 发生的概率
联合概率 \(P(AB)\) 事件 \(A\) 和事件 \(B\) 一起发生的概率
相互独立 满足 \(P(AB) = P(A)P(B)\)
随机变量 \(X=X(s)=s\) 是一个实值函数,将样本空间的每一个样本点 \(s\)​ 表示为一个实值
n维随机变量 \((X_1,X_2,\cdots,X_n)\)
分布律 \(P(A) = P\{X=x_k\}=P(X=x_k)\) 对于离散型随机变量, \(X\) 每个可能的取值 \(x_k\) ,使得事件 \(A=\{X=x_k\}\) 发生的概率(注:连续型随机变量的分布律都为0)
分布函数 \(F_X(x)=F(x)=P(X\leq x)\) 随机变量落于一个区间内的概率
联合分布函数 \(F(x_1,x_2,\cdots,x_n)\)
边缘分布函数 \(F_{X_k}(x_k)=F(\infty,\cdots,x_k,\cdots,\infty)\) 联合分布各维度的分布函数
概率密度函数概率密度 \(f_X(x)=f(x)=p(x)\) 使 \(F(x) = \int_x f(x) dx = \sum_x f(x)\)​成立(注:求导为连续型,求和为离散型,离散型的概率密度就是其分布律)
联合概率密度 \(f(x_1,x_2,\cdots,x_n)\) 使\(F(x_1,x_2,\cdots,x_n)=\int\cdots\int f(x_1,x_2,\cdots,x_n) dx_1\cdots dx_n\)​ 成立
边缘概率密度 \(f_{X_k}(x_k)=\int f(x_1,x_2,\cdots,x_n)dx_k\) 联合概率密度各维度的概率密度
数学期望期望均值 \(E[X] = E(X)=\int_x xf(x)dx = \sum_x xf(x)\) 随机变量平均取值的大小
方差 \(D(X)=\operatorname{Var}(X)=E\left\{[X-E(X)]^{2}\right\} \\ =E\left(X^{2}\right)-[E(X)]^{2}\) 衡量随机变量离散程度,表示 \(g(X) = (X-E(X))^2\) 的数学期望
标准差均方差 \(\sigma(x) = \sqrt{D(X)}\)
协方差 \(\operatorname{Cov}(X, Y)=E\{[X-E(X)][Y-E(Y)]\}\\ =E(X Y)-E(X) E(Y)\)​​ 随件变量 \(X\)​ 与 \(Y\)​ 间的相关性
相关系数 \(\rho_{X Y}=\frac{\operatorname{Cov}(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}}\)
\(k\) 阶原点矩 \(E(X^k)\)
\(k\)​ 阶中心矩 \(E\left\{[X-E(X)]^{k}\right\}\)
\(k+l\) 阶混合矩 \(E(X^kY^l)\)
协方差矩阵 \(C=[\operatorname{Cov}(X_i, X_j)]_{n \times n}\) 对于 \(n\) 维随机变量,由 \(n^2\)​ 个协方差组成的矩阵

2. 概率计算规律

2.1. 概率

\[ \begin{aligned} P(A B)&=P(B \mid A) P(A) \\ P(A B C)&=P(C \mid A B) P(B \mid A) P(A) \\ P\left\{x_{1}<X \leqslant x_{2}\right\}&=F\left(x_{2}\right)-F\left(x_{1}\right) \end{aligned} \]

2.2. 概率密度

  • \(Y= g(x)\)\(h(y)\)\(g(x)\) 的反函数,则 \[ f_Y(y) = f_X[h(y)]|h'(y)| \]

  • \(Z = X + Y\)​,则 \[ f_{X+Y}(z)=\int_{-\infty}^{\infty} f(z-y, y) \mathrm{d} y = \int_{-\infty}^{\infty} f(x, z-x) \mathrm{d} x \]\(X\)\(Y\) 相互独立,则 \[ f_{X+Y}(z)=\int_{-\infty}^{\infty} f_{X}(z-y) f_{Y}(y) \mathrm{d} y = \int_{-\infty}^{\infty} f_{X}(x) f_{Y}(z-x) \mathrm{d} y \]

  • \(Z=Y/X\),则 \[ f_{Y / X}(z)=\int_{-\infty}^{\infty}|x| f(x, x z) \mathrm{d} x \]\(X\)\(Y\) 相互独立,则 \[ f_{Y / X}(z)=\int_{-\infty}^{\infty}|x| f_{X}(x) f_{Y}(x z) \mathrm{d} x \]

  • \(Z = XY\) ,则 \[ f_{X Y}(z)=\int_{-\infty}^{\infty} \frac{1}{|x|} f\left(x, \frac{z}{x}\right) \mathrm{d} x \]\(X\)\(Y\) 相互独立,则 \[ f_{X Y}(z)=\int_{-\infty}^{\infty} \frac{1}{|x|} f_{X}(x) f_{Y}\left(\frac{z}{x}\right) \mathrm{d} x \]

2.3. 期望

\[ \begin{aligned} E(c) &= c \\ E(cX) &= cE(X) \\ E(X+Y) &= E(X) +E(Y) \\ E(XY) &= E(X)E(Y)\quad \text{(X,Y相互独立)} \end{aligned} \]

  • \(Y=g(X)\),则 \[ E(Y) = E(g(X)) = \sum_x g(x)f(x) = \int_x g(x)f(x)dx \]

2.4. 方差

\[ \begin{aligned} D(c) &= 0 \\ D(cX) &= c^2D(X) \\ D(X+Y)&=D(X)+D(Y)+2 E\{(X-E(X))(Y-E(Y))\} \\ D(X+Y)&=D(X)+D(Y)+2 \operatorname{Cov}(X, Y) \end{aligned} \]

2.5. 协方差

\[ \begin{aligned} \operatorname{Cov}(X, Y)&=\operatorname{Cov}(Y, X) \\ \operatorname{Cov}(X, X)&=D(X)\\ \operatorname{Cov}(a X, b Y)&=a b \operatorname{Cov}(X, Y) \\ \operatorname{Cov}\left(X_{1}+X_{2}, Y\right)&=\operatorname{Cov}\left(X_{1}, Y\right)+\operatorname{Cov}\left(X_{2}, Y\right) \end{aligned} \]

3. 频数派与贝叶斯派

3.1. 贝叶斯理论

假设

  • \(X=x\)​​ 是系统输入的随机变量
  • \(Y=\theta\)​ 是系统参数的随机变量

贝叶斯派认为,随机事件的概率分布服从如下的贝叶斯公式 \[ P(Y|X) = \frac{P(Y) \cdot P(X|Y)}{P(X)} \] 其中,\(P(X)\) 是边缘概率,\(P(Y)\) 是先验概率,\(P(Y|X)\) 是后验概率,\(P(X|Y)\) 是似然概率。

\(P(X)\)​ 一般是一个已知常量,一般表示一个归一项,可通过如下公式计算 \[ P(X) = \sum_i P(XY_i) = \sum_i P(X|Y_i)P(Y_i) \]

上式的具体含义可以理解为 \(后验概率 = (先验概率 * 似然性)/标准化常量\)

3.2. 相同点

  • 两个学派的最终目标都是求参数 $ $​
  • 当数据量趋向无穷的时候,两者得到的结果是一样的;当不存在先验知识时,两者是等价的。所以两者是对立统一的,或者说频率的方法是贝叶斯方法的极限。这一点在下面的不同点中会有所体现。

3.3. 不同点

  • 频率学派是对事件进行建模,贝叶斯学派是对参数的建模

  • 频率派认为硬币本身是确定的,参数是不变的,所以我们需要解决的是似然函数 \(p(x| \theta)\)。即,已知 \(p(x| \theta)\) 是关于随机变量 \(x\) 的概率函数, \(x\) 取决于 \(\theta\) ,只要求出 \(\theta\) ,即可求 \(x\)

    但我们要求的其实并不是 \(x\)。因为囿于人类知识有限,我们其实不能知晓参数的具体值(如果知道了,就不需要求参数\(\theta\) 了),即 $ $ 是固定但未知的,而我们最终要求其实还是这个未知的参数 \(\theta\)

    为此,我们通过做实验假设 \(x\) 已经确定,然后通过计算关于 \(\theta\) 的似然函数 \(p(x| \theta)\)最大似然估计(Maximum likelihood estimation,MLE)来确定 \(\theta\) ,即 \[ \theta = \arg \max_\theta p(x|\theta) \]

  • 贝叶斯学派认为事件既然已经发生了,事实是不变的,所以 \(x\) 是固定的。所以我们需要解决的是后验概率 \(p( \theta|x)\)。即,已知 \(p( \theta|x)\) 是关于随机变量 \(\theta\) 的概率函数, \(\theta\) 取决于 \(x\) ,通过观察 \(x\) ,即可求 \(\theta\)

    所以对参数 \(\theta\)的推断为计算关于 \(\theta\)最大后验估计(Maximum a posteriori estimation,MAE),按照贝叶斯公式,又由于 \(p(x)\) 是一个常数项,所以最终的求解式为 \[ \theta = \arg \max_\theta p(x|\theta)p(\theta) \] > 注: > > - 上式可以理解为,在基于事实 \(x\) 条件下,通过给定的 \(\theta\) 的先验分布,给出其置信度(似然概率),计算出后验 \(\theta\),然后用后验更新先验 \(\theta\) ,直到收敛。 > > - \(p(\theta)\) 可以理解为是一个正则项,因为一般MAE都会加上 \(\log\) 对数,即 > \[ > \begin{aligned} > \theta &= \arg \max_\theta p(x|\theta)p(\theta) \\ &= \arg \max_\theta \log p(x|\theta)p(\theta) \\ &=\arg \max_\theta \left(\log p(x|\theta) + \log p(\theta) \right) > \end{aligned} > \] > 可以看出,\(\log p(\theta)\) 实际上就是一个正则化项 > >

  • 可以简单认为频率学派最终目标是最大似然估计,是以求导为基础;贝叶斯学派最终目标是最大后验估计,是以积分为基础。由于求导比积分简便,所以尽管贝叶斯理论出现比频率派要早,发展一直缓慢。如今绝大多数的理论都是以频率学派为基础的,包括现在流行的神经网络。而贝叶斯学派的理论有了较大的发展,还是直到后面的MCMC方法的提出及计算机技术的发展。如今,深度学习也逐渐向贝叶斯派靠拢,发展出一些基于贝叶斯理论的模型,例如贝叶斯神经网络。

3.4. 举例说明

假设这是一个抛硬币的事件,正反面朝上的概率为 \(p(x| \theta)\)​​,其中,\(x\)​​ 是硬币正面还是反面朝上的事件,\(\theta\)​​ 是硬币的影响事件(例如材质分布的均匀程度)的参数,两个学派的目标都是求参数 $ $​​,那么:

  • 假设 \(p(\theta) = \theta\)​​,抛10次硬币,7次朝上,3次朝下,则似然函数 \(p(x| \theta) = \theta^7(1-\theta)^3\)​​ ,求解可得当 \(\theta=0.7\)​​ 时,似然函数值最大。

  • 假设已知 \(p(\theta)\)​​​​​ 服从 \(N(0.5,0.1)\) 的正态分布(我们不能假设先验条件是正面朝上的概率为0.5,因为如果概率已经知道,就没有计算后验的必要了,但是我们可以假设有0.5的置信度确信正面朝上的概率为0.5),抛10次硬币,7次朝上,3次朝下,后验概率 \(p(\theta | x) \propto p(x|\theta)p(\theta) = \theta^7(1-\theta)^3N(0.5,0.1)\)​​​​​,在 \(\theta \approx 0.55\)​​​​​ 处,后验概率最大。

4. references

《概率论与数理统计(第四版)》浙江大学


评论
  目录