先验概率、后验概率、最大似然等

本文解释了机器学习中概率的概念,包括先验概率、似然概率、边缘概率及后验概率,并探讨了最大似然估计与最大后验估计的区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在一个分类器中,denote:d是输入的数据,c是输出的类别,c=h(d)。那么h(d)就是输出的类别或者输出某类的概率。h就是模型的hypothesis。机器学习的过程就是从众多的hypothesis选择一个合适数据的hypothesis。可以理解为输入到输出的一个映射。


在上述的模型中:

P(h) 就是先验概率,指未看到任何数据前,hypothesis的概率分布。

P(d|h)是似然概率,指的是若某个hypothesis为true时,d出现的概率。以hypothesis慰条件便是似然概率。

P(d) 是d的边缘概率,就是d出现的概率。

P(h|d)是后验概率,指看到数据之后推测的hypothesis的概率分布。


可能说的还比较抽象,举个例子。现有一个不均匀的六面骰子,如何通过抛骰子推出抛到每个面的概率。


对于这个问题,hypothesis是所有的骰子可能的分布,比如骰子可能4的那一面重点,也可能1那一面重点,所有这种可能的假设的集合就是hypothesis。再具体点就是骰子抛到每个数字的概率。在这个模型中,

P(h)就是你还没抛骰子做实验之前别人告诉你的,这个骰子4那一面重一点的概率是0.3,1那一面重一点的概率是0.4等等。看到任何数据之前获知的模型的概率分布。

P(d|h)就是当骰子某一面重一点时抛到某个数字的概率。

P(d)就是多次抛骰子后统计得到的数字的出现概率。

P(h|d)抛了多次骰子后看到数据了,某个假设成立的概率。


好了,说清楚了。那么最大似然(maximum likelihood)和最大后验(maximum posteriori)又是什么呢。


关于这两者的不同,这篇文章讲得挺好的 http://www.cnblogs.com/emituofo/archive/2011/12/02/2271410.html


由于更多时候我们不知道先验概率p(h),所以使用最大似然求解的情况比较多。但最大似然求解的前提是hypothesis均匀分布,所以求解没有最大后验准确。











评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值