1. 基本定义

名称	数学记法	定义
样本空间	$S$	随机实验中所有可能结果组成的集合
随机事件或事件	$A$	样本空间中满足一定条件的结果组成的集合
基本事件		样本空间中一个样本组成的单点集合
小概率事件		根据不同的置信度（10%、5%或0.1%），小于预设的置信度（常取5%）的发生概率的事件
频数	$n_A=\sum_A I(S=A)$	$N$ 次实验中，事件 $A$ 发生的次数
频率	$f_n(A) = n_A / N$	$N$ 次实验中，事件 $A$ 的频数与实验次数的比值
概率	$p=P(A)$	表征随机实验中事件 $A$ 发生的可能性的大小
离散型		样本空间包含有限个数的元素，对应的随机实验又称古典概型
非离散型		如果没特殊说明，一般指连续型，样本空间包含无限个数的元素
条件概率	$P(B\\|A)$	事件 $A$ 发生的条件下，事件 $B$ 发生的概率
联合概率	$P(AB)$	事件 $A$ 和事件 $B$ 一起发生的概率
相互独立		满足 $P(AB) = P(A)P(B)$
随机变量	$X=X(s)=s$	是一个实值函数，将样本空间的每一个样本点 $s$ 表示为一个实值
n维随机变量	$(X_1,X_2,\cdots,X_n)$
分布律	$P(A) = P\{X=x_k\}=P(X=x_k)$	对于离散型随机变量， $X$ 每个可能的取值 $x_k$ ，使得事件 $A=\{X=x_k\}$ 发生的概率（注：连续型随机变量的分布律都为0）
分布函数	$F_X(x)=F(x)=P(X\leq x)$	随机变量落于一个区间内的概率
联合分布函数	$F(x_1,x_2,\cdots,x_n)$
边缘分布函数	$F_{X_k}(x_k)=F(\infty,\cdots,x_k,\cdots,\infty)$	联合分布各维度的分布函数
概率密度函数或概率密度	$f_X(x)=f(x)=p(x)$	使 $F(x) = \int_x f(x) dx = \sum_x f(x)$成立（注：求导为连续型，求和为离散型，离散型的概率密度就是其分布律）
联合概率密度	$f(x_1,x_2,\cdots,x_n)$	使$F(x_1,x_2,\cdots,x_n)=\int\cdots\int f(x_1,x_2,\cdots,x_n) dx_1\cdots dx_n$ 成立
边缘概率密度	$f_{X_k}(x_k)=\int f(x_1,x_2,\cdots,x_n)dx_k$	联合概率密度各维度的概率密度
数学期望或期望或均值	$E[X] = E(X)=\int_x xf(x)dx = \sum_x xf(x)$	随机变量平均取值的大小
方差	$D(X)=\operatorname{Var}(X)=E\left\{[X-E(X)]^{2}\right\} \\ =E\left(X^{2}\right)-[E(X)]^{2}$	衡量随机变量离散程度，表示 $g(X) = (X-E(X))^2$ 的数学期望
标准差或均方差	$\sigma(x) = \sqrt{D(X)}$
协方差	$\operatorname{Cov}(X, Y)=E\{[X-E(X)][Y-E(Y)]\}\\ =E(X Y)-E(X) E(Y)$	随件变量 $X$ 与 $Y$ 间的相关性
相关系数	$\rho_{X Y}=\frac{\operatorname{Cov}(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}}$
$k$ 阶原点矩	$E(X^k)$
$k$ 阶中心矩	$E\left\{[X-E(X)]^{k}\right\}$
$k+l$ 阶混合矩	$E(X^kY^l)$
协方差矩阵	$C=[\operatorname{Cov}(X_i, X_j)]_{n \times n}$	对于 $n$ 维随机变量，由 $n^2$ 个协方差组成的矩阵

2. 概率计算规律

2.1. 概率

\[ \begin{aligned} P(A B)&=P(B \mid A) P(A) \\ P(A B C)&=P(C \mid A B) P(B \mid A) P(A) \\ P\left\{x_{1}<X \leqslant x_{2}\right\}&=F\left(x_{2}\right)-F\left(x_{1}\right) \end{aligned} \]

2.2. 概率密度

若 $Y= g(x)$，$h(y)$ 是 $g(x)$ 的反函数，则 \[ f_Y(y) = f_X[h(y)]|h'(y)| \]
若 $Z = X + Y$，则 \[ f_{X+Y}(z)=\int_{-\infty}^{\infty} f(z-y, y) \mathrm{d} y = \int_{-\infty}^{\infty} f(x, z-x) \mathrm{d} x \] 若 $X$ 和 $Y$ 相互独立，则 \[ f_{X+Y}(z)=\int_{-\infty}^{\infty} f_{X}(z-y) f_{Y}(y) \mathrm{d} y = \int_{-\infty}^{\infty} f_{X}(x) f_{Y}(z-x) \mathrm{d} y \]
若 $Z=Y/X$，则 \[ f_{Y / X}(z)=\int_{-\infty}^{\infty}|x| f(x, x z) \mathrm{d} x \] 若 $X$ 和 $Y$ 相互独立，则 \[ f_{Y / X}(z)=\int_{-\infty}^{\infty}|x| f_{X}(x) f_{Y}(x z) \mathrm{d} x \]
若 $Z = XY$ ，则 \[ f_{X Y}(z)=\int_{-\infty}^{\infty} \frac{1}{|x|} f\left(x, \frac{z}{x}\right) \mathrm{d} x \] 若 $X$ 和 $Y$ 相互独立，则 \[ f_{X Y}(z)=\int_{-\infty}^{\infty} \frac{1}{|x|} f_{X}(x) f_{Y}\left(\frac{z}{x}\right) \mathrm{d} x \]

2.3. 期望

\[ \begin{aligned} E(c) &= c \\ E(cX) &= cE(X) \\ E(X+Y) &= E(X) +E(Y) \\ E(XY) &= E(X)E(Y)\quad \text{(X,Y相互独立)} \end{aligned} \]

若 $Y=g(X)$，则 \[ E(Y) = E(g(X)) = \sum_x g(x)f(x) = \int_x g(x)f(x)dx \]

2.4. 方差

\[ \begin{aligned} D(c) &= 0 \\ D(cX) &= c^2D(X) \\ D(X+Y)&=D(X)+D(Y)+2 E\{(X-E(X))(Y-E(Y))\} \\ D(X+Y)&=D(X)+D(Y)+2 \operatorname{Cov}(X, Y) \end{aligned} \]

2.5. 协方差

\[ \begin{aligned} \operatorname{Cov}(X, Y)&=\operatorname{Cov}(Y, X) \\ \operatorname{Cov}(X, X)&=D(X)\\ \operatorname{Cov}(a X, b Y)&=a b \operatorname{Cov}(X, Y) \\ \operatorname{Cov}\left(X_{1}+X_{2}, Y\right)&=\operatorname{Cov}\left(X_{1}, Y\right)+\operatorname{Cov}\left(X_{2}, Y\right) \end{aligned} \]

3. 频数派与贝叶斯派

3.1. 贝叶斯理论

假设

$X=x$ 是系统输入的随机变量
$Y=\theta$ 是系统参数的随机变量

贝叶斯派认为，随机事件的概率分布服从如下的贝叶斯公式 \[ P(Y|X) = \frac{P(Y) \cdot P(X|Y)}{P(X)} \] 其中，$P(X)$ 是边缘概率，$P(Y)$ 是先验概率，$P(Y|X)$ 是后验概率，$P(X|Y)$ 是似然概率。

$P(X)$ 一般是一个已知常量，一般表示一个归一项，可通过如下公式计算 \[ P(X) = \sum_i P(XY_i) = \sum_i P(X|Y_i)P(Y_i) \]

上式的具体含义可以理解为 $后验概率 = (先验概率 * 似然性)/标准化常量$

3.2. 相同点

两个学派的最终目标都是求参数 $ $
当数据量趋向无穷的时候，两者得到的结果是一样的；当不存在先验知识时，两者是等价的。所以两者是对立统一的，或者说频率的方法是贝叶斯方法的极限。这一点在下面的不同点中会有所体现。

3.3. 不同点

频率学派是对事件进行建模，贝叶斯学派是对参数的建模
频率派认为硬币本身是确定的，参数是不变的，所以我们需要解决的是似然函数 $p(x| \theta)$。即，已知 $p(x| \theta)$ 是关于随机变量 $x$ 的概率函数， $x$ 取决于 $\theta$ ，只要求出 $\theta$ ，即可求 $x$。

但我们要求的其实并不是 $x$。因为囿于人类知识有限，我们其实不能知晓参数的具体值（如果知道了，就不需要求参数$\theta$ 了），即 $ $ 是固定但未知的，而我们最终要求其实还是这个未知的参数 $\theta$。

为此，我们通过做实验假设 $x$ 已经确定，然后通过计算关于 $\theta$ 的似然函数 $p(x| \theta)$ 的最大似然估计（Maximum likelihood estimation，MLE）来确定 $\theta$ ，即 \[ \theta = \arg \max_\theta p(x|\theta) \]
贝叶斯学派认为事件既然已经发生了，事实是不变的，所以 $x$ 是固定的。所以我们需要解决的是后验概率 $p( \theta|x)$。即，已知 $p( \theta|x)$ 是关于随机变量 $\theta$ 的概率函数， $\theta$ 取决于 $x$ ，通过观察 $x$ ，即可求 $\theta$。

所以对参数 $\theta$的推断为计算关于 $\theta$ 的最大后验估计（Maximum a posteriori estimation，MAE），按照贝叶斯公式，又由于 $p(x)$ 是一个常数项，所以最终的求解式为 \[ \theta = \arg \max_\theta p(x|\theta)p(\theta) \] > 注： > > - 上式可以理解为，在基于事实 $x$ 条件下，通过给定的 $\theta$ 的先验分布，给出其置信度（似然概率），计算出后验 $\theta$，然后用后验更新先验 $\theta$ ，直到收敛。 > > - $p(\theta)$ 可以理解为是一个正则项，因为一般MAE都会加上 $\log$ 对数，即 > \[ > \begin{aligned} > \theta &= \arg \max_\theta p(x|\theta)p(\theta) \\ &= \arg \max_\theta \log p(x|\theta)p(\theta) \\ &=\arg \max_\theta \left(\log p(x|\theta) + \log p(\theta) \right) > \end{aligned} > \] > 可以看出，$\log p(\theta)$ 实际上就是一个正则化项 > >
可以简单认为频率学派最终目标是最大似然估计，是以求导为基础；贝叶斯学派最终目标是最大后验估计，是以积分为基础。由于求导比积分简便，所以尽管贝叶斯理论出现比频率派要早，发展一直缓慢。如今绝大多数的理论都是以频率学派为基础的，包括现在流行的神经网络。而贝叶斯学派的理论有了较大的发展，还是直到后面的MCMC方法的提出及计算机技术的发展。如今，深度学习也逐渐向贝叶斯派靠拢，发展出一些基于贝叶斯理论的模型，例如贝叶斯神经网络。

3.4. 举例说明

假设这是一个抛硬币的事件，正反面朝上的概率为 $p(x| \theta)$，其中，$x$ 是硬币正面还是反面朝上的事件，$\theta$ 是硬币的影响事件（例如材质分布的均匀程度）的参数，两个学派的目标都是求参数 $ $，那么：

假设 $p(\theta) = \theta$，抛10次硬币，7次朝上，3次朝下，则似然函数 $p(x| \theta) = \theta^7(1-\theta)^3$ ，求解可得当 $\theta=0.7$ 时，似然函数值最大。
假设已知 $p(\theta)$ 服从 $N(0.5,0.1)$ 的正态分布（我们不能假设先验条件是正面朝上的概率为0.5，因为如果概率已经知道，就没有计算后验的必要了，但是我们可以假设有0.5的置信度确信正面朝上的概率为0.5），抛10次硬币，7次朝上，3次朝下，后验概率 $p(\theta | x) \propto p(x|\theta)p(\theta) = \theta^7(1-\theta)^3N(0.5,0.1)$，在 $\theta \approx 0.55$ 处，后验概率最大。

4. references

《概率论与数理统计（第四版）》浙江大学

math

常用概率分布

cheat sheet of Distrubution

2021-10-26 数学基础

math

常用线性代数基础

cheat sheet of Linear Algebra

2021-10-26 数学基础

math

名称	数学记法	定义
样本空间	\(S\)	随机实验中所有可能结果组成的集合
随机事件或事件	\(A\)	样本空间中满足一定条件的结果组成的集合
基本事件		样本空间中一个样本组成的单点集合
小概率事件		根据不同的置信度（10%、5%或0.1%），小于预设的置信度（常取5%）的发生概率的事件
频数	\(n_A=\sum_A I(S=A)\)	\(N\) 次实验中，事件 \(A\) 发生的次数
频率	\(f_n(A) = n_A / N\)	\(N\) 次实验中，事件 \(A\) 的频数与实验次数的比值
概率	\(p=P(A)\)	表征随机实验中事件 \(A\) 发生的可能性的大小
离散型		样本空间包含有限个数的元素，对应的随机实验又称古典概型
非离散型		如果没特殊说明，一般指连续型，样本空间包含无限个数的元素
条件概率	\(P(B\\|A)\)	事件 \(A\) 发生的条件下，事件 \(B\) 发生的概率
联合概率	\(P(AB)\)	事件 \(A\) 和事件 \(B\) 一起发生的概率
相互独立		满足 \(P(AB) = P(A)P(B)\)
随机变量	\(X=X(s)=s\)	是一个实值函数，将样本空间的每一个样本点 \(s\) 表示为一个实值
n维随机变量	\((X_1,X_2,\cdots,X_n)\)
分布律	\(P(A) = P\{X=x_k\}=P(X=x_k)\)	对于离散型随机变量， \(X\) 每个可能的取值 \(x_k\) ，使得事件 \(A=\{X=x_k\}\) 发生的概率（注：连续型随机变量的分布律都为0）
分布函数	\(F_X(x)=F(x)=P(X\leq x)\)	随机变量落于一个区间内的概率
联合分布函数	\(F(x_1,x_2,\cdots,x_n)\)
边缘分布函数	\(F_{X_k}(x_k)=F(\infty,\cdots,x_k,\cdots,\infty)\)	联合分布各维度的分布函数
概率密度函数或概率密度	\(f_X(x)=f(x)=p(x)\)	使 \(F(x) = \int_x f(x) dx = \sum_x f(x)\)成立（注：求导为连续型，求和为离散型，离散型的概率密度就是其分布律）
联合概率密度	\(f(x_1,x_2,\cdots,x_n)\)	使\(F(x_1,x_2,\cdots,x_n)=\int\cdots\int f(x_1,x_2,\cdots,x_n) dx_1\cdots dx_n\) 成立
边缘概率密度	\(f_{X_k}(x_k)=\int f(x_1,x_2,\cdots,x_n)dx_k\)	联合概率密度各维度的概率密度
数学期望或期望或均值	\(E[X] = E(X)=\int_x xf(x)dx = \sum_x xf(x)\)	随机变量平均取值的大小
方差	\(D(X)=\operatorname{Var}(X)=E\left\{[X-E(X)]^{2}\right\} \\ =E\left(X^{2}\right)-[E(X)]^{2}\)	衡量随机变量离散程度，表示 \(g(X) = (X-E(X))^2\) 的数学期望
标准差或均方差	\(\sigma(x) = \sqrt{D(X)}\)
协方差	\(\operatorname{Cov}(X, Y)=E\{[X-E(X)][Y-E(Y)]\}\\ =E(X Y)-E(X) E(Y)\)	随件变量 \(X\) 与 \(Y\) 间的相关性
相关系数	\(\rho_{X Y}=\frac{\operatorname{Cov}(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}}\)
\(k\) 阶原点矩	\(E(X^k)\)
\(k\) 阶中心矩	\(E\left\{[X-E(X)]^{k}\right\}\)
\(k+l\) 阶混合矩	\(E(X^kY^l)\)
协方差矩阵	\(C=[\operatorname{Cov}(X_i, X_j)]_{n \times n}\)	对于 \(n\) 维随机变量，由 \(n^2\) 个协方差组成的矩阵

常用概率统计基础

1. 基本定义

2. 概率计算规律

2.1. 概率

2.2. 概率密度

2.3. 期望

2.4. 方差

2.5. 协方差

3. 频数派与贝叶斯派

3.1. 贝叶斯理论

3.2. 相同点

3.3. 不同点

3.4. 举例说明

4. references

你的赏识是我前进的动力