先验概率
- 概念:本质上就是古典概型,是利用当前状态对求解状态的一种概率估计,可以理解为“由 因求果”中“因”出现的概率。
- 条件:
- (1)实验所有的可能结果是有限的;
- (2) 每一种出现的结果的概率是等可能的
- 举例:假设有一个根据身高H和衣服颜色饱和度S两个参数的模型来估计一个人是男的还是女的性别识别系统
- 模型:y=w1∗H+w2∗S+b,y>0为男生,y<0为女生。其中b 为偏置项(这里需要注意,其实这个模型本身就是一个估计,而不是我们定好的,这模型好不好我们这时候是不知道的)
- 经验:在观测到训练样本之前,我们可以凭借经验得知模型
(w1,w2,b) 的一些相关信息,比如:一般男生都高,性格原因所以大部分的衣服饱和度比较低;而女生个子低,而喜欢美所以衣服颜色饱和度高。那么我们可以感觉的出,这里的w1是正的,而w2是负数,这样更合理一些就是经验了。 - 特殊情况:然而有些时候我们选择的模型会表现的非常的差劲,比如:这有一批女篮球队员的数据,或者是女装大佬的数据,那么这个模型就会变得非常的差劲至于为什么就不用我解释了吧。这样的模型一点泛化性都没有,谁敢用哇,画女硬说男只存在于二次元的!
- 思考:既然我们选择了一个模型,用这个模型去预估观测值来得到的最大似然权值,那么又有什么手段来评估我们这个模型选择的好坏
后验概率
- 概念:与“先验概率”刚好相反,后验概率是用“结果”来估计“因”,它是以先验概率为基础的。哲学的讲,“先验概率”是主观信念,即凭我的经验我感觉它如何;而“后验概率”是客观事实,即有大量的证据表明事情如此。
- 贝叶斯公式:p(w|D)=p(D|w)p(w)p(D)
- p(w|D)是后验概率 , p(w|D)是极大似然估计,p(w)是模型的先验概率,p(D)是观测值的选择概率
- 解读公式:先看右边的公式,已知观测序列下而预估模型参数w 的极大似然估计乘以选择这个模型的概率其实就是选择这个模型的基础上去找最有可能观测到该组数据的那个模型概率除以本身可以观测到这组观测值的概率(这里需要注意这组观测值的概率是已知的,是常数),而左式表明在我们有了观测值的基础上去选择该模型的概率。
- 意义:贝叶斯公式反映了它对我们经验所作出的选择而进行的一种评估。
- 推导化简:(目的是极大化后延估计)
- 我们前面已经提到了
P(D) 是常数,我们为了求最大是可以省略到此数的 - P(D|w)项实际可拿极大似然估计L(D|w)来代替
- w∗=argmaxwP(w|D)=argmaxwL(
- 我们前面已经提到了