贝叶斯分类器

贝叶斯学习


常用概率公式

乘法规则

  • P(AB)=P(B)P(A∣B)P(AB)=P(B)P(A|B)P(AB)=P(B)P(AB)
         =P(A)P(B∣A)=P(A)P(B|A)=P(A)P(BA)
         =P(BA)=P(BA)=P(BA)

全概率公式

  • 若事件 AiA_iAi 互斥,且 ∑i=1nP(Ai)=1\sum_{i=1}^nP(A_i)=1i=1nP(Ai)=1
  • P(B)=∑i=1nP(B∣Ai)P(Ai)P(B)=\sum_{i=1}^nP(B|A_i)P(A_i)P(B)=i=1nP(BAi)P(Ai)

贝叶斯定理

先验概率

  • P(A)P(A)P(A)AAA 的先验概率
  • P(B)P(B)P(B)BBB 的先验概率

条件概率

  • P(A∣B)P(A|B)P(AB)BBB 成立时 AAA 的概率

后验概率

  • P(B∣A)P(B|A)P(BA)AAA 成立时 BBB 的概率

贝叶斯定理

  • P(B∣A)=P(A∣B)P(B)P(A)P(B|A)=\frac{P(A|B)P(B)}{P(A)}P(BA)=P(A)P(AB)P(B)

定义变量

  • 样本 xxx 包含 ddd 个属性,即x={x1,x2,...,xd}x=\{x_1,x_2,...,x_d\}x={x1,x2,...,xd}
  • 存在NNN 种可能的类别标记,Y={c1,c2,...,cN}Y=\{c_1,c_2,...,c_N\}Y={c1,c2,...,cN}
  • 先验概率 P(ci)P(c_i)P(ci),条件概率 P(x∣ci)P(x|c_i)P(xci),后验概率 P(ci∣x)P(c_i|x)P(cix)

风险

  • 风险 = 原本为 cjc_jcj 的样本误分类为 cic_ici 产生的期望损失
  • 期望损失 = 概率 × 损失
  • 即风险 R(ci∣x)=∑j=1NλijP(cj∣x)R(c_i|x)=\sum_{j=1}^N\lambda_{ij}P(c_j|x)R(cix)=j=1NλijP(cjx)
  • λij=0     if i=j\lambda_{ij}=0 \ \ \ \ \ if \ i=jλij=0     if i=j
        1     else1 \ \ \ \ \ else1     else
  • 总体风险:R(h)=Ex(R(c∣x))R(h)=\mathbb{E}_x(R(c|x))R(h)=Ex(R(cx))
  • 并且 R(c∣x)=1−P(c∣x)R(c|x)=1-P(c|x)R(cx)=1P(cx)

贝叶斯最优分类器

为最小化总体风险,只需在每个样本上选择能够使条件风险最小的类别标记

  • h∗(x)=arg⁡min⁡c∈yR(c∣x)h^*(x)=\arg\min_{c\in y}R(c|x)h(x)=argmincyR(cx)
        =arg⁡max⁡c∈yP(c∣x)=\arg\max_{c\in y}P(c|x)=argmaxcyP(cx)
  • h∗h^*h 称为贝叶斯最优分类器

朴素贝叶斯分类器

朴素贝叶斯分类器假设每个属性独立的对分类结果发生影响

  • P(c∣x)=P(c)P(x∣c)P(x)=P(c)P(x)Πj=1dP(xj∣c)P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\Pi_{j=1}^dP(x_j|c)P(cx)=P(x)P(c)P(xc)=P(x)P(c)Πj=1dP(xjc)
  • 由于对于所有的类别 P(x)P(x)P(x) 相同,所以:
  • hNB(x)=arg⁡max⁡c∈YP(c)Πj=1dP(xj∣c)h^{NB}(x)=\arg\max_{c\in Y}P(c)\Pi_{j=1}^dP(x_j|c)hNB(x)=argmaxcYP(c)Πj=1dP(xjc)

极大似然估计 (MLE估计)

核心思想

  • 样本集 D={x1,x2,...,xN}D=\{x_1,x_2,...,x_N\}D={x1,x2,...,xN} 固定且已知
  • 待估计的模型参数 θ\thetaθ 固定且未知
  • 输入:样本集 DDD 和 模型参数 θ\thetaθ
  • 输出:似然函数
  • 在模型参数 θ\thetaθ 所有可能的取值中
  • 找到一个能使似然函数取得最大值的参数值

公式

  • 参数 θ\thetaθ 对于数据集 DDD 的似然:
  • L(θ)≜p(D∣θ)=Πi=1Np(xi∣θ)L(\theta)\triangleq p(D|\theta)=\Pi_{i=1}^Np(x_i|\theta)L(θ)p(Dθ)=Πi=1Np(xiθ)
  • p(D∣θ)p(D|\theta)p(Dθ) 为联合密度函数

对数似然公式

  • LL(θ)=log⁡L(θ)=∑i=1Nlog⁡p(xi∣θ)LL(\theta)=\log L(\theta)=\sum_{i=1}^N\log p(x_i|\theta)LL(θ)=logL(θ)=i=1Nlogp(xiθ)
  • θ^=arg⁡max⁡θLL(θ)\hat{\theta}=\arg\max_{\theta}LL(\theta)θ^=argmaxθLL(θ)

求解似然函数

  • 若似然函数连续、可微
  • 则解为:d(L(θ))dθ=0\frac{\mathrm{d}(L(\theta))}{\mathrm{d}\theta}=0dθd(L(θ))=0d(LL(θ))dθ=0\frac{\mathrm{d}(LL(\theta))}{\mathrm{d}\theta}=0dθd(LL(θ))=0 的解

最大后验概率估计 (MAP估计)

核心思想

  • 样本集 DDD 固定且已知
  • 待估计的模型参数 μ\muμ 固定且未知
  • 输入:样本集 DDD 和 模型参数 μ\muμ
  • 输出:似然函数
  • 在模型参数 μ\muμ 所有可能的取值中
  • 找到一个能使似然函数取得最大值,并且 μ\muμ 的先验概率最大的的参数值

公式

  • μ^MAP=arg⁡max⁡μp(μ∣D)\hat{\mu}_{MAP}=\arg\max_\mu p(\mu|D)μ^MAP=argmaxμp(μD)
        =arg⁡max⁡μp(D∣μ)p(μ)p(D)=\arg\max_\mu \frac{p(D|\mu)p(\mu)}{p(D)}=argmaxμp(D)p(Dμ)p(μ)
        =arg⁡max⁡μp(D∣μ)p(μ)=\arg\max_\mu p(D|\mu)p(\mu)=argmaxμp(Dμ)p(μ)

求解MAP函数

  • 若MAP函数连续、可微
  • 则解为:目标函数=0 的解

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值