概率论总结

目录
  1. 事件与运算律
  2. 单变量随机数
    1. 基本函数
    2. 常见概念
    3. 一些定理
    4. 常见分布
  3. 双变量随机数
    1. 基本函数
    2. 常见概念
    3. 双变量的函数
    4. 条件分布
  4. 大数部分
    1. 收敛性部分
    2. 大数定理
    3. 中心极限定理
TOC

将它作为概率论的回忆罢

事件与运算律

  • 运算律
    • 分配律:A(BUC) = (AB)U(AC) AU(BC) = (AUB)(AUC)
    • 对偶律:与和或可以互换,只要01也互换(逻辑电路的知识)
      • 同样的,逻辑电路的德摩根定律在这里也成立

单变量随机数

基本函数

  • 概率:$P(X \le x)$
  • 概率分布函数:$F(x) = P(X \le x)$
  • 概率密度函数:$P_x(x) = F’(x)$

概率分布通常用来求概率密度,概率密度圈起来的面积就是落到这个里面的概率。

概率密度可以显示分布特征,但不够直观,所以用概率分布来建立联系更为常见。

常见概念

  • 期望 $E(x) = \int xP(x)dx$
  • 方差 $Var(x) = E((x - E(x))^2)$
  • 进阶:
    • $Var(x) = E(x^2) - E^2(x)$
    • 对于$h(x)$,如果函数是一一对应的,其取值的概率则只和$x$的取值有关,此时$P(h(x)) = P(x)$。
  • 对$z = h(x)$
    • 当$h(x)$是线性时,不妨认为是$h(x) = ax + b$
      • $E(z) = aE(x) + b$ ,即期望遵循线性关系
      • $Var(z) = a^2Var(x)$ ,即方差关注系数
    • 当$h(x)$不是线性,考虑通过概率密度分布函数解决问题
      • $P_z(z) = P_x(h^{-1}(x))|(h^{-1}(x))’|$ 要求$h(x)$单调递增,可以通过分布函数求得

单变量函数期望和方差的计算通常有两个方向,一个方向是从概率分布函数入手,然后根据定义计算得到(方差通常由进阶式计算),另一个方向是从已有函数的关系入手,通过方差和期望的性质得到答案。

一些定理

  • 切比雪夫定理:
    • 对任意$\epsilon > 0$,有$P(|x - E(x)| > \epsilon) \le \frac{Var(x)}{\epsilon ^2}$
  • 用均匀分布构造分布:
    • 对$Exp(\lambda),F(x) = 1-e^{-\lambda x}$,构造$x = F^{-1}(U(0,1))$即可

切比雪夫定理在实际意义上规定了一个随机变量能够偏离期望的概率大小,这可以用来直接解答一部分问题。

另外,在一些计算,尤其是证明中,切比雪夫可以用来构造不等式,实现放缩。

常见分布

  • 均匀分布U $P(x) = \frac{1}{b - a}$
    • $E(x) = \frac{b-a}{2}$ $Var(x) = \frac{1}{12}(b-a)^2$
  • 指数分布EXP $P(x) = \lambda e^{-\lambda x}$
    • $E(x) = \frac{1}{\lambda}$ $Var(x) = \frac{1}{\lambda^2}$
  • 正态分布N $P(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x - \mu)}{2\sigma^2}}$
    • $E(x) = \mu$ $Var(x) = \sigma$
  • 泊松分布P $P(x = k) = \frac{\lambda^k}{K!}e^{-\lambda}$
    • $E(x) = \lambda$ $Var(x) = \lambda$
  • 二项分布B $P(x = k) = C_n^kp^k(1-p)^{n-k}$
    • $E(x) = np$ $E(x) = np(1-p)$

前三个为连续分布,函数为密度函数,后两个为离散分布,函数为概率函数。

正态分布需要掌握转换成标准正态分布的方法:减去平均数再除以标准差。

指数分布特点在于无论什么时候开始,它的分布都和刚开始一样。


双变量随机数

基本函数

  • 概率:$P(X \le x, Y \le y)$
  • 概率分布函数:$F(x , y) = P(X \le x, Y \le y)$
  • 概率密度函数:
    • 单个:$P_x(x) = \frac{d}{dx}F(x,y)$,$P_y(y) = \frac{d}{dy}F(x,y)$
    • 多个:$P(x,y) = \frac{d^2}{dxdy}F(x,y)$

在二维乃至多维中,概率密度函数的“密度”二字的含义就逐渐体现出来了。

在几何上,它表示落到一小块区域的概率。

如果想要得到一个变量的密度分布,则需要把其它变量拍扁——积起来消除影响。

常见概念

  • 期望:将一维拓展至多维,多个几个积分号而已。
    • $E(x,y) = \int \int P(x,y)dxdy$
  • 方差:对于单个的$P_x(x)$,知道密度函数情况下直接参考单变量情况。
  • 协方差:$Cov(x,y) = E(xy) - E(x)E(y)$ 用于评判xy相关度,xy独立时为0。
  • 相关系数:$Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)}\sqrt{Var(y)}}$在-1到1间变动,绝对值越大越相关,本身只是作为协方差的归一化存在。

注意,独立的xy协方差为0,但为0不代表它们独立。

双变量的函数

  • 不妨设$z = h(x,y)$

  • 对密度概率函数,需要先求分布函数:$F_z(z) = P(h(x, y) \le z)$把它看成xy的概率表达式,相当于对xy新加了一个约束,然后用积分求得分布函数,再求导得到概率密度函数。

  • 对于期望,和单变量时情况类似,可以用$\int \int h(x,y)dxdy$或通过概率密度函数积分获得。

  • 对于方差:

    • 若是线性的,有:$Var(x\pm y) = Var(x) + Var(y) \pm Cov(x,y)$

    此式可以用来求$Cov$,但更多的情况是正着用求$Var(x \pm y)$

  • 若不是线性的,只能通过概率密度函数获得。

  • 对于协方差,线性部分和期望类似,在多维问题中尤为突出。

  • 正态分布,二项分布,泊松分布都具有可加性:

    • $N(\mu_1,\sigma_1^2) + N(\mu_2, \sigma_2^2) = N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)$
    • $B(n,p) + B(m,p) = B(n+m, p)$
    • $P(\lambda_1) + P(\lambda_2) = P(\lambda_1 + \lambda_2)$

条件分布

  • $P(X|Y = y)$即$Y = y$时x的分布:$P(X|Y = y) = \frac{P(x,y)}{P_y(y)}$
  • 和单变量的条件公式相同,有全概率公式和贝叶斯公式:
    • $P(x) = \int P(x,y)dy = \int P(x|y)P(y)dy$
    • $P(x|y) = P(y|x) \frac{P(x)}{P(y)}$
  • 期望:$E(x|y)$,y是变量,x被期望加和。
  • 重期望公式:$E(x) = E(E(x|y))$
    • 通常用来求解不确定个数的随机变量问题
    • $E(\Sigma^NX_i) = E(X_1)E(N)$ (要求$X_i$独立同分布)

大数部分

收敛性部分

  • 按概率收敛:符号带P
    • 定义为一个变量序列的概率逐渐接近一个定值(收敛)
    • 对任意的$\epsilon> 0$,$limP(|X_n - X| > \epsilon) = 0$
  • 按分布收敛:符号带L
    • 定义和上面类似,不过是看分布函数$F(x)$去逼近
    • $limF_n(x) = F(x)$
    • 也被称为弱收敛

两种收敛不等价,在证明中常常需要放缩和切比雪夫不等式,还有基本不等式等知识。

大数定理

  • 概述:相当于告知了概率和期望的意义(稳定性)
  • 辛钦大数定理:观测足够多时,算数平均数大概率接近期望
  • 伯努利大数定理:观测足够多时,事件发生频率大概率接近概率

中心极限定理

  • 对于独立同分布,无论什么分布,其总的分布函数总是长得像正态分布,期望方差都对应。
    • 收束到二项分布上,便成了:棣莫弗—拉普拉斯中心极限定理
  • 独立不同分布,如想要像正态分布一样,需要满足下面的条件之一:
    • 林德伯格条件:
      • $B_n = \sqrt{\Sigma\sigma^2}$
      • 对任意$\tau > 0$,$lim\frac{1}{\tau^2B_n^2}\Sigma^n_{i=1}\int_{|x-\mu_i|>\tau B_n}(x-\mu_i)^2pi(x)dx = 0$
    • 李雅普诺夫条件:
      • $B_n = \sqrt{\Sigma\sigma^2}$
      • 存在$\delta > 0$,使得$lim\frac{1}{B_n^{2+\delta}}\Sigma E(|X_i - \mu_i^{2+\delta}|) = 0$

很明显,林德伯格条件以“任意”起头,李雅普诺夫条件以“存在”起头,前者一般用于否定,后者用于证明显得比较合理。

DAR
SON