MLE 和 MAP 做个总结

之前自己一直理解不来MLE和MAP的区别,脑筋一直拗不过来,今天难得没课重新捡起来,解决一下

最重要的就是怎么理解模型的参数在公式里面的地位,充当什么角色!

基本上每一篇博客都会介绍一下品频率学派和贝叶斯学派,一开始觉得怎么都千篇一律,后来发现还真有点道理。
 

频率学派,我自己理解就是概率,他们觉得当前这个模型的参数\theta已经上天安排好了,也就是固定的,我们的任务就是找到\theta的麻,所以直接对数据(样本)进行建模。用MLE进行操作

贝叶斯学派,我自己理解就是统计,他们觉得这个参数\theta上天没安排好,这个参数其实也是服从某一个分布的,所以利用已有的数据(样本)和已有参数(\theta)对这个 参数\theta(我们要求的)进行建模。

MAP:argmaxP(\theta|D) 怎么理解这个D在后面呢?因为我们是基于数据去对参数进行估计的,我们假设有一个预估的先验概率,然后根据观测数据,不断调整之前的预估,也就是让这个参数尽可能地接近实际情况,所以在这里\theta成了一个参数了。所以这个参数\theta也是一个服从某种潜在的分布,因此先验概率的value是非常重要的!

再把它展开:\frac{P(D|\theta) P(\theta)}{P(D)},其中分母为什么可以约掉,是因为我们都已经在用数据来调整参数了,肯定是知道数据发生的概率的,所以它相当于一个常数,可以约掉的。

MLE:argmaxP(D|\theta) 这里D和参数的位置是相反的,这就是因为上面说的角度不一样导致的,这里认为\theta 是固定的(上面的\theta 是一个变量),固定是什么意思呢?就是我们已经假设他是某一个值,来看看训练集发生对应label的概率是多大的。

这么解释我觉得应该挺清楚的

下面就是验证

1. 当X服从高斯分布(先验),MAP就等于MLE 加一个 L2 惩罚项

2. 当X服从拉普拉斯(先验),MAP就等于MLE 加一个 L1 惩罚项

3. 当数据量很大的时候,MAP的先验发挥的作用就很少了,MAP约等于MLE

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值