将简单的道理用数学的手段进行精确的量化描述

概率学派与贝叶斯学派

对于模型的参数估计:

概率学派 - 从事件的随机性出发,概率是客观固定的值

贝叶斯学派 - 从观察者角度出发,主观的看待概率

贝叶斯学派希望解决的问题是,不用等到样本积累到一定程度,才去估计模型参数。而是先预设一个值,随着信息的增多,修正假设使之慢慢接近真实值。

从而让问题从知道准确的统计信息,转化为知道该问题和哪些方面有关。

概率学派

概率学派认为模型固定不变,观察到的数据是模型中一个个独立同分布的样本。

概率是上帝,数据为之服务。

认为估计出来的模型参数和真实模型之间的差距来自于数据的噪音。

贝叶斯学派

贝叶斯学派认为,观察得到的数据是固定的,模型的参数是变化的。当我们不断观察数据时,估计出来的模型参数也是一直变化的。

对模型参数最初的信仰,称为先验。基于先验,由观察到的数据指导模型参数更新。

认为估计出来的模型参数和真实模型之间的差距来自于信息的不完备。

此时模型参数不再是一个数,而是一个分布。

  • 后验概率:由观察数据和先验假设推测出来的参数分布。
  • 先验概率:由于专家知识对参数的假设。
  • 似然函数:基于某个给定的参数,输出数据的概率。

全概率分布&贝叶斯公式

  • 全概率公式

    P(A)=i=1nP(Bi)P(ABi) P(A)=\sum_{i=1} ^n P(B_i)P(A|B_i)

  • 贝叶斯公式

    P(HE)=P(EH)P(H)P(E) P(H|E)=\frac{P(E|H)*P(H)}{P(E)}

    求已知事件结果后,由该原因导致的概率。

    在实验中可以看作,E是观察得到的结果,H是一种假设,P(H)为先验概率,P(H|E)为后验概率,P(E|H)为似然函数。P(E|H)/P(E)为贝叶斯系数,似然度,后验分布取决于先验分布与似然度的乘积

贝叶斯定理的深入理解

  • 与人的认知联系,使得贝叶斯定理适用于量化看法

  • 新证据不能直接凭空的决定你的看法,而是应该更新你的先验看法

  • 得到一个假设,和一些证据,想要知道在得到的证据是真的的条件下,假设成立的概率

    例:假设为图书管理员,图书管理员和农夫的比例为先验条件,证据是已知是图书管理员有条理的概率P(E|H)(在假设成立下证据出现的概率->讨论总概率空间中一个有限的部分(假设成立)->称作似然概率)和是农夫有条理的概率的概率,目的是得到证据为真的条件下,假设成立的概率P(H|E)

  • P(E)总证据的概率,计算时用全概率公式

  • 先验,限制概率空间;似然,在该概率空间下的可能性;后验概率,在看到证据后,对假设成立与否的看法

  • 将概率空间看为1*1的正方形,先验将宽按照概率划分,似然概率为高,而目标,后验概率为面积。

  • 研究背景决定先验(比例),似然概率(高度)取决于如何解读问题(对于关于性格和印象的问题)

  • 似然,应该如何修正直觉

  • 在非独立事件的条件下才有意义(非抛硬币等独立事件) ,即贝叶斯定理可以精确衡量一个变量多大程度的依赖另一个变量

  • 强化似然的两种途径:增加数据的量和提高数据的质

  • 弱化先验分布:如果一个先验分布与实际偏差很大,需要更多观察数据。强大的先验分布往往狭窄、单一、缺乏弹性。

  • 对“理性”的看法,理性不是说知道事实,而是知道和哪些因素有关。从一定角度上重重塑了对思想的看法

先验概率&后验概率

  • 先验概率 prior probability:根据以往的经验和分析,在实验或采样前得到的概率。(事先可估计)

  • 后验概率 posterior probability:指某件事已经发生,计算这件事发生的原因是由某个因素引起的概率。

  • 极大似然估计:知道结果求最可能的原因。

  • 贝叶斯学派并不求最大似然,关心参数空间中的每个值

  • 似然函数:

    L(θx)=P(X=xθ) L(\theta|x)=P(X=x|\theta)

    表示当给定参数时,输出为x的概率。

共轭先验

轭:牛拉车用的木头

共轭:同时拉一辆车的两头牛,称为共轭关系

在数学中,共轭指成对的东西(可能没有一个更合适的叫法来总结他们的关系)

在贝叶斯过程中,可以表示对于该似然函数,找到它的共轭先验,使得后验的分布与先验分布相同。这里的共轭指的就是一对先验和似然。

后验概率公式

p(θγ)=p(θ,γ)p(γ)=p(θ)p(γθ)p(γ)p(θ)p(γθ) p(\theta|\gamma)=\frac{p(\theta,\gamma)}{p(\gamma)}=\frac{p(\theta)p(\gamma|\theta)}{p(\gamma)}\propto p(\theta)p(\gamma|\theta)

因为p(y)只受数据集影响,为常数可以忽略。所以后验正比于先验概率*似然函数

对于该似然函数,如果我们挑选了一个合适(这里的合适指的是和似然函数共轭)的先验分布,那么后验分布的形式将和先验分布一致

为什么要使用共轭先验

  • 可以更加便捷的更新后验概率
  • 由于共轭先验是分析法,可以精确推导,而非数值计算和采样

常见的似然-共轭先验

正态分布-正态分布

二项分布-Beta分布

多项式分布-狄利克雷分布

泊松分布-伽马分布

  • 二项分布(成功次数)——关于成功概率——Beta分布(成功概率的概率)
  • 多项分布(多重Categorical分布为多项分布)——关于各概率——Dirichlet分布

(多项分布是二项分布在N维上的扩展情况,Dirichlet分布是Beta分布在N维上的扩展情况)