常见分布及其近似:几何分布、二项分布、泊松分布

几何分布

进行多次相互独立的实验,每次成功的概率是 p,则达到一次成功所需要的实验次数的分布 P(X) 可以表示为(实验 r 次需要 r1 次失败和 1 次成功):

P(X=r)=p(1p)r1P(X>r)=(1p)rP(Xr)=1(1p)r

记作 XGeo(p)

E(X)=1pVar(X)=1pp2

p 低,分布更平,更可能导致更多的实验次数;p 高,分布更陡,更可能在前几次就成功;

image-20250617164033936

二项分布

Xn 次伯努利实验中成功的次数,p 为试验成功的概率,则成功次数 X 服从以下分布:

P(X=r)=Cnrpr(1p)nr,r=0,1,2,...n

记作 XB(n,p) 或者 XBinomial(n,p)

E(X)=npVar(X)=np(1p)

p 越小,分布的峰值越偏左,集中在小值。p=0.5 时分布对称。

image-20250617164228309

伯努利分布

伯努利分布是二项分布的特例:

Bernoulli(p)=Binomial(n=1,p)

X 表示伯努利试验有没有发生我们关心的事件。概率质量函数:

P(X=x)=px(1p)1x,x{0,1},0p1

常见于二分类问题中:

  1. 你已经观测到了数据
    • 即某次试验给出了具体结果 x=0x=1
    • 此时 x 被当作 常数,不再是随机变量。
  2. 你把成功概率 p 视为未知参数,需要估计或推断
    • 在频率学派里要做最大似然估计 (MLE)。
    • 在贝叶斯框架里要与先验结合得到后验。

只要满足这两点,原本的 PMF 就自动变成了似然:

L(px)=px(1p)1x.

而对这个似然取对数就变成了交叉熵:

logL(px)=xlogp+(1x)log(1p)

泊松分布

已知某个区间内,事件平均发生的次数 λ(非负实数,不一定得是整数),用 X 表示给定区间内事件发生的次数,则 X 服从泊松分布

P(X=r)=eλλrr!
  1. λr:表示事件同时发生 r 次的强度;

  2. 1r!:发生 r 次事件有很多顺序组合,而这些事件又是等价的,所以除以 r! 来消重。

  3. eλ:是个归一化因子,用来确保所有可能值的概率总和是 1。它可以理解为“没有任何事件发生”的基本概率,也叫“零事件概率”。把 eλ 提到外面:

    eλr=0λrr!

    而这正是指数函数的泰勒级数展开式:

    r=0λrr!=eλ

    所以,

    eλeλ=1

    这说明整个概率分布是归一化的 —— 所有可能事件的概率加起来正好是 1。

记作 XPo(λ)

E(X)=λVar(X)=λ

λ 越小,事件发生的次数更集中在较小值,分布偏左,反之偏右。

image-20250617173801215

用泊松分布近似二项分布

n 很大且 p 很小时, XPo(np) 可以用于近似替代 XB(n,p)

比如 n>50p<0.1,此时近似的泊松分布 λ=5

image-20250617195233928

Note

泊松分布可以由二项分布推导出来

设二项分布:

P(X=r)=Cnrpr(1p)nr

如果我们令:

  • n(无限多次试验,二项分布中式固定的试验次数,而在泊松分布中,连续的区间可以进行无限多次的试验)
  • p0(每次成功概率很小,事件在无限细的时空中以极小概率独立发生。)
  • 但保持 np=λ 恒定(这是保持整个系统期望不变)

就可以推导出:

P(X=r)=(nr)(λn)r(1λn)nr=λrr!(1λn)nr//limn\infin(nr)=nrr!=λrr!(1λn)n(1λn)r=λrr!eλ(1λn)r//limn(1λn)n=eλ=eλλrr!//limn(1λn)r1

正态分布近似二项分布和泊松分布

当二项分布近似于对称时,可以用 XN(np,np(1p)) 来近似二项分布 XB(n,p) 。常见的条件是成功次数和失败的次数都要足够多,才能保持分布是大致对称的:

np5\andn(1p)5

当泊松分布的参数 λ 足够大时(通常 λ10),此时泊松分布趋近对称,可以用 XN(λ,λ) 近似 XPo(λ)

在用正态分布近似离散分布时,要进行连续修正:

  • P(Xa) 连续性修正后 P(Xa+0.5)

    case_le
  • P(Xa) 连续性修正后 P(Xa0.5)

    case_ge
  • P(aXb) 连续性修正后 P(a0.5Xa+0.5)

    case_interval