伯努利分布

伯努利试验:只有两种可能结果的单次随机试验

二项分布

重复多次独立的伯努利试验。
二项分布关注事件成功的次数(当事件发生概率固定时)

1.定义

xb(k;n;pn)x \sim b(k;n;p_{n})

2.公式

f(x)=(xn)px(1p)nxf(x)={x \choose n}p^{x}(1-p)^{n-x}

3.期望与方差

E(x)=npVar(x)=np(1p)E(x)=np\\ Var(x)=np(1-p)

4.二项分布的泊松逼近

当n很大时,二项式公式计算复杂。为了简化计算,找到一个近似公式。

当p很小,n比较大时,p<=0.1,npnλnp_{n}\rightarrow \lambda

  • 泊松分布是p很小的二项分布,即仍很多次硬币,且正面概率极小。

  • 正态分布是n很大的二项分布,即仍很多次硬币,且硬币完全相同。因此随着λ\lambda变大,泊松分布看起来很像正态分布。

泊松分布

泊松分布描述的是稀有事件的概率分布

1. 定义
描述单位时间内随机事件发生的次数。

xp(k;λ)x \sim p(k;\lambda)

2.公式

f(x)=λxeλx!f(x)=\frac{\lambda^{x}e^{-\lambda}}{x!}

λ\lambda为单位时间内随机事件的平均发生率。

正态分布

正态分布认为研究对象具有同质性,其特征往往是趋同的;但由于个体变异的存在,这些特征又不完全一致,会以一定的幅度在基准的上下波动。从而形成了中间密集,两侧稀疏的特征。

正态分布也称为高斯分布,
正态分布密度函数最初是以二项分布的极限分布的形式被推导出来的。

f(x)=12πσexp((xμ)22σ2)f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2})

指数分布

1.定义

用于描述生命周期

θ\theta表示平均寿命

xEXP(θ)x \sim EXP(\theta)

2.公式

概率密度函数:对连续随机变量定义,本身不是概率,只有对连续随机变量的概率密度在某区间内进行积分后才是概率。

f(x)={1θexθx>00x0(θ>0)f(x)=\begin{cases} \frac{1}{\theta}e^{-\frac{x}{\theta}}\qquad{x>0}\\ 0\qquad{x \leq 0}\\ \end{cases} \qquad(\theta>0)

1θ=λ\frac{1}{\theta}=\lambda每单位时间内发生该事件的次数
概率分布函数

F(x)={1exθx00x<0(θ>0)F(x)= \begin{cases} 1-e^{-\frac{x}{\theta}}\qquad{x \geq 0}\\ 0\qquad{x<0} \end{cases} \qquad(\theta>0)

3.数学期望与方差

E(X)=θD(X)=θ2E(X)=\theta D(X)=\theta^2

多项分布

1.定义

是二项分布的推广,试验结果为多个

2.公式

P(X1=x1,...,Xk=xk)=n!x1!...xk!p1x1...pkxkP(X_{1}=x_{1},...,X_{k}=x_{k})=\frac{n!}{x_{1}!...x_{k}!}p_{1}^{x_{1}}...p_{k}^{x_{k}}

3.均值

E(xi)=npiVar(xi)=npi(1pi)E(x_{i})=np_{i} Var(x_{i})=np_{i}(1-p_{i})

Beta分布

可以看作概率的概率分布,一般用于建模伯努利试验事件成功的概率分布,定义域(0,1)。

1.定义

在分析建模过程中,不同于抛硬币、掷骰子等简单试验,通常情况下事件成功的概率未知。根据概率学派的观点,通过频率来估计概率。当不知道一个事件发生的具体概率时,给出所有概率出现的可能性大小。

当未知实验数据结果之前,对概率的大概估计。

可以将先验信息转换为beta分布的参数,已知某事件发生的概率和范围,得到beta分布的参数。

xBeta(a,b)x\sim Beta(a,b)

2.公式

f(x;α,β)=1B(α,β)xα1(1x)β1BetaB(α,β)=01tα1(1t)β1F(x)=1B(α,β)0xxα1(1x)β1B(x,α,β)=0xxα1(1x)β1,BetaF(x)=B(x,α,β)B(α,β)f(x;\alpha,\beta)=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1} \\ 其中Beta函数:B(\alpha,\beta)=\int_{0}^{1}t^{\alpha-1}(1-t)^{\beta-1}\\ F(x)=\frac{1}{B(\alpha,\beta)}\int_{0}^{x}x^{\alpha-1}(1-x)^{\beta-1}\\ 其中定义B(x,\alpha,\beta)=\int_{0}^{x}x^{\alpha-1}(1-x)^{\beta-1},为不完全Beta函数\\ F(x)=\frac{B(x,\alpha,\beta)}{B(\alpha,\beta)}

3.期望与方差

E(X)=αα+βVar(X)=αβ(α+β+1)(α+β)2E(X)=\frac{\alpha}{\alpha+\beta} Var(X)=\frac{\alpha\beta}{(\alpha+\beta+1)(\alpha+\beta)^{2}}

4. Beta函数与Gamma函数的关系

Gamma函数:

Γ(z)=0tz1etdt=(z1)Γ(z1)Γ(1)=1Γ(z)=(z1)(z2)...2×1=(z1)!zZ+\Gamma(z)=\int_{0}^{\infty}t^{z-1}e^{-t}dt=(z-1)\Gamma(z-1)\\ \Gamma(1)=1\\ \Gamma(z)=(z-1)(z-2)...2\times1=(z-1)! \qquad z\in Z_{+}

经过推导

B(α,β)=Γ(α)Γ(β)Γ(α+β)Betaf(x;α,β)=Γ(α+β)Γ(α)Γ(β)xα1(1x)β1B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)} 因此Beta分布也可写作:f(x;\alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}

5.Beta分布与二项分布的关系

进行n次伯努利试验,其试验成功的概率p服从一个先验概率密度分布Beta(α,β)Beta(\alpha,\beta),试验结果出现k次试验成功,则后验为Beta(α+k,β+nk)Beta(\alpha+k,\beta+n-k)

证:假设试验成功的概率的分布是一个参数为θ\theta的分布(在概率图模型中,常使用某个分布的参数来代替说明某个模型)

假设,到目前为止,已做过n次伯努利试验,成功k次,这是一个二项分布。记作y,y=(k,n)y=(k,n)

P(yn,θ)=B(K;n,θ)θP(y|n,\theta)=B(K;n,\theta)\theta服从Beta分布,p(θα,β)=Beta(α,β)p(\theta|\alpha,\beta)=Beta(\alpha,\beta)

联合概率密度函数为:

f(θ,yα,β)=f(θα,β)p(yθ)=1B(α,β)θα1(1θ)β1(nk)θk(1θ)nk=B(α+k,β+nk)B(α,β)1B(α+k,β+nk)(nk)θα+k1(1θ)β+nk1=h(y)g(θ,y)θ,h(y)=B(α+k,β+nk)B(α,β)(nk)g(θ,y)=1B(α+k,β+nk)θα+k1(1θ)β+nk1,Beta(α+k,β+nk)f(\theta,y|\alpha,\beta)\\ =f(\theta|\alpha,\beta)p(y|\theta)\\ =\frac{1}{B(\alpha,\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}{n \choose k}\theta^{k}(1-\theta)^{n-k}\\ =\frac{B(\alpha+k,\beta+n-k)}{B(\alpha,\beta)}\frac{1}{B(\alpha+k,\beta+n-k)}{n \choose k}\theta^{\alpha+k-1}(1-\theta)^{\beta+n-k-1}\\ =h(y)g(\theta,y)\\ \\ 其中与\theta无关,h(y)=\frac{B(\alpha+k,\beta+n-k)}{B(\alpha,\beta)}{n \choose k}\\ g(\theta,y)=\frac{1}{B(\alpha+k,\beta+n-k)}\theta^{\alpha+k-1}(1-\theta)^{\beta+n-k-1},为Beta(\alpha+k,\beta+n-k)分布

求后验分布:

f(θy,α,β)=g(θ,y)=Beta(α+k,β+nk)f(\theta|y,\alpha,\beta)=g(\theta,y)=Beta(\alpha+k,\beta+n-k)

二项分布的共轭先验为Beta分布,后验也为Beta分布。