首先介绍什么是熵。
在信息论中,熵是接收的每条消息中包含的信息的平均量。熵是在1948年由克劳德·艾尔伍德·香农将热力学的熵引入到信息论的,因此它又被称为香农熵。
不确定性函数f满足两个条件是:
(1)概率P的单调递降函数;
(2)两个独立符号所产生的不确定性应等于各自不确定性之和(可加性),即
f(P1,P2)=f(P1)+f(P2)。
同时满足这两个条件的函数f是对数函数,即
在信源中,考虑的不是某一单个符号发生的不确定性,而是要考虑这个信源所有可能发生情况的平均不确定性。若信源符号有n种取值:U1…Ui…Un,对应概率为:P1…Pi…Pn,且各种符号的出现彼此独立。这时,信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值(E),可称为信息熵,即,
式中对数一般取2为底,单位为比特。但是,也可以取其它对数底,采用其它相应的单位,它们间可用换底公式换算。
假设我们的分类任务或者预测任务的类别为y,而我们能够依据的上下文信息记为
机器学习——最大熵原理
最新推荐文章于 2023-12-16 09:00:00 发布