机器学习之最大熵模型(Maximum Entropy Model)

本文深入探讨最大熵模型的原理与应用,包括熵的概念、最大熵原理、最大熵模型的学习过程及对偶问题转化,对比逻辑回归,解释特征函数的作用,讨论约束条件的设定,并解析模型的优化过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言: 学习笔记,记录下对于一些问题的记录和理解,复习和加深记忆用,挖坑补坑用。

参考:李航 《统计学习方法》

0. 基本内容

  • 最大熵原理

    • 熵:表征信息的不确定程度(how?)
      H ( p ) = − ∑ x P ( x ) l o g P ( x ) H(p) = - \sum\limits_x P(x) logP(x) H(p)=xP(x)logP(x)

    • 原理:在满足约束条件(如何规定?how?)的模型集合中选取熵最大(可行性?why?)的模型。也即在满足已知信息的约束条件下,剩下的作等概率处理。

      在完全无约束的状态下,均匀分布等价于熵最大

      给定均值和方差,熵最大的分布等价于正态分布(why?)

  • 最大熵模型

    • 最大熵原理应用到分类问题上的体现

    • 满足约束条件的模型集合 C 中条件熵 H§ 最大的模型
      C = { P ∈ Ω ∣ E P ( f i ) = E P ∼ ( f i ) ,   i = 1 , 2 , . . . , n } H ( P ) = − ∑ x , y P ∼ ( x ) P ( y ∣ x ) l o g P ( y ∣ x ) C = \{P\in \Omega | E_P(f_i)=E_{\mathop{P}\limits^\sim}(f_i),\ i=1,2,...,n\} \\ H(P) = - \sum\limits_{x,y}\mathop{P}\limits^\sim (x)P(y|x)logP(y|x) C={ PΩEP(fi)=EP(fi), i=1,2,...,n}H(P)=x,yP(x)P(yx)logP(yx)

  • 模型学习(对偶函数极大化等价与模型的极大似然估计)

    • 最优化问题
      m a x P ∈ C H ( P )     o r     m i n P ∈ C − H ( P ) s . t     E P ( f i ) = E P ∼ ( f i ) ,   i = 1 , 2 , . . . , n ∑ y P ( y ∣ x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值