文章目录
1. 条件熵
在这之前,我们先定义信息熵的概念,假设样本集合 D D D 中第 k k k 类样本所占的比例为 p k ( k = 1 , 2 , . . . , N ) p_k(k=1,2,...,N) pk(k=1,2,...,N) ,则 D D D 的信息熵定义为
E n t ( D ) = − ∑ k = 1 N p k l o g 2 p k Ent(D)=-\sum_{k=1}^{N}p_klog_2p_k Ent(D)=−k=1∑Npklog2pk E n t ( D ) Ent(D) Ent(D) 的值越小,则 D D D 的不确定性越高。
设 X ∈ { x 1 , x 2 , ⋯ , x n } , Y ∈ { y 1 , y 2 , ⋯ , y m } X \in \{ x_1,x_2,\cdots,x_n\}, Y \in \{ y_1,y_2,\cdots,y_m\} X∈{ x1,x2,⋯,xn},Y∈

本文介绍了信息熵的概念,条件熵的计算方法以及最大熵原理。最大熵原理指出,在仅知部分信息的情况下,预测应使熵最大,以避免主观假设。最大熵模型是寻找在满足约束条件下熵最大的概率分布,用于预测任务。文章通过实例解释了这些概念,并探讨了最大熵模型的学习过程。
最低0.47元/天 解锁文章
4780

被折叠的 条评论
为什么被折叠?



