之前自己一直理解不来MLE和MAP的区别,脑筋一直拗不过来,今天难得没课重新捡起来,解决一下
最重要的就是怎么理解模型的参数在公式里面的地位,充当什么角色!
基本上每一篇博客都会介绍一下品频率学派和贝叶斯学派,一开始觉得怎么都千篇一律,后来发现还真有点道理。
频率学派,我自己理解就是概率,他们觉得当前这个模型的参数已经上天安排好了,也就是固定的,我们的任务就是找到
的麻,所以直接对数据(样本)进行建模。用MLE进行操作
贝叶斯学派,我自己理解就是统计,他们觉得这个参数上天没安排好,这个参数其实也是服从某一个分布的,所以利用已有的数据(样本)和已有参数(
)对这个 参数
(我们要求的)进行建模。
MAP: 怎么理解这个D在后面呢?因为我们是基于数据去对参数进行估计的,我们假设有一个预估的先验概率,然后根据观测数据,不断调整之前的预估,也就是让这个参数尽可能地接近实际情况,所以在这里
成了一个参数了。所以这个参数
也是一个服从某种潜在的分布,因此先验概率的value是非常重要的!
再把它展开:,其中分母为什么可以约掉,是因为我们都已经在用数据来调整参数了,肯定是知道数据发生的概率的,所以它相当于一个常数,可以约掉的。
MLE: 这里D和参数的位置是相反的,这就是因为上面说的角度不一样导致的,这里认为
是固定的(上面的
是一个变量),固定是什么意思呢?就是我们已经假设他是某一个值,来看看训练集发生对应label的概率是多大的。
这么解释我觉得应该挺清楚的
下面就是验证
1. 当X服从高斯分布(先验),MAP就等于MLE 加一个 L2 惩罚项
2. 当X服从拉普拉斯(先验),MAP就等于MLE 加一个 L1 惩罚项
3. 当数据量很大的时候,MAP的先验发挥的作用就很少了,MAP约等于MLE