机器学习笔记之基础数学(二)

本文深入探讨了机器学习中的基础数学概念,包括贝叶斯公式及其组成部分:先验概率、后验概率和似然函数。接着,介绍了最大似然估计,讲解了如何在给定样本的情况下,通过最大化条件概率来估计参数,并展示了最大似然函数的求解过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

贝叶斯公式

P(Bi|A)=P(B|Ai)P(Ai)ni=1P(B|Ai)P(Ai)

在贝叶斯法则中,每个名词都有约定俗成的名称:
Pr(A)是A的先验概率或边缘概率。之所以称为”先验”是因为它不考虑任何B方面的因素。
Pr(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
Pr(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。(也称为似然函数)
Pr(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。

思考

假设现在给定某些样本D,在这些样本中计算某结论 A1,A2,,An 出现的概率 P(Ai|D) ,我们想最大化这个概率的话就得到如下的式子:

maxP(Ai|D)=maxP(D|Ai)P(Ai)P(D)=maxP(D|Ai)P(Ai)=maxP(D|Ai)

这里如果样本D给定的话那么 P(D) 是定值,然后我们假设 P(Ai) 近似相等就得到了上述的结果。这意味着什么呢?意味着我们想要最大化后验概率 P(Ai|D) 则只需要最大化似然函数 P(D|Ai) 。于是这就和最大似然估计联系起来了。

最大似然估计

设总体样本分布为 f(x,θ),x1,x2,,xn 为该总体样本采样得到的样本,因为 x1,x2,,xn 独立同分布,于是它们的连个概率密度函数为:

L(x1,x2,,xn;θ1,θ2,,θn)=i=1nf(xi;θ1,θ2,,θn)

这里, θ 被看作是固定的但是未知的参数,我们反过来想,因为样本年已经存在了,于是可以将 x1,x2,,xn 看作是固定的且已知的。于是 L(x,θ) 就是关于 θ 的函数,也就是似然函数。

最大似然函数的求解

通常我们对似然函数取对数,得到对数似然,再经行求解.
对上式子取对数:

logL(θ1,θ2,,θn)=i=1nlogf(xi;θ1,θ2,,θn)

然后对 θ 求偏导并令导数等于0解出 θ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值