前言: 学习笔记,记录下对于一些问题的记录和理解,复习和加深记忆用,挖坑补坑用。
参考:李航 《统计学习方法》
0. 基本内容
-
最大熵原理
-
熵:表征信息的不确定程度(how?)
H ( p ) = − ∑ x P ( x ) l o g P ( x ) H(p) = - \sum\limits_x P(x) logP(x) H(p)=−x∑P(x)logP(x) -
原理:在满足约束条件(如何规定?how?)的模型集合中选取熵最大(可行性?why?)的模型。也即在满足已知信息的约束条件下,剩下的作等概率处理。
在完全无约束的状态下,均匀分布等价于熵最大
给定均值和方差,熵最大的分布等价于正态分布(why?)
-
-
最大熵模型
-
最大熵原理应用到分类问题上的体现
-
满足约束条件的模型集合 C 中条件熵 H§ 最大的模型
C = { P ∈ Ω ∣ E P ( f i ) = E P ∼ ( f i ) , i = 1 , 2 , . . . , n } H ( P ) = − ∑ x , y P ∼ ( x ) P ( y ∣ x ) l o g P ( y ∣ x ) C = \{P\in \Omega | E_P(f_i)=E_{\mathop{P}\limits^\sim}(f_i),\ i=1,2,...,n\} \\ H(P) = - \sum\limits_{x,y}\mathop{P}\limits^\sim (x)P(y|x)logP(y|x) C={ P∈Ω∣EP(fi)=EP∼(fi), i=1,2,...,n}H(P)=−x,y∑P∼(x)P(y∣x)logP(y∣x)
-
-
模型学习(对偶函数极大化等价与模型的极大似然估计)
-
最优化问题
m a x P ∈ C H ( P ) o r m i n P ∈ C − H ( P ) s . t E P ( f i ) = E P ∼ ( f i ) , i = 1 , 2 , . . . , n ∑ y P ( y ∣ x
-