一、信息量
信息量:一件事件发生的概率越小,信息量越大,反之也成立
假设一件事情有n种情况,某一种情况n1发生的概率为p,则n1的信息量为
I = −log(p(n1))
二、熵
熵用来表示所有信息量的期望值,即:
S = -p(n1)log(p(n1))-p(n2)log(p(n2))-…
当某个事件是二分类时
S = -p(n1)log(p(n1))-(1-p(n1))log(1-p(n1))
注:p表示时间发生的概率
三、相对熵
相对熵是指某个事件有两种情况的概率分布,一种是P(x),一种是Q(x),现在这个事件用P来衡量而不是Q来衡量,假设P是实际分布的情况,Q是预测出来的情况,所以Q相对于P有一个信息增量才能达到P分布的完美值,所以计算方式为:
DKL(p||q)=p(xi)log(p(xi)/q(xi)) i属于n
四、交叉熵
将上述相对熵分解:
DKL(p||q)=p(xi)log(p(xi))−p(xi)log(q(xi)) = −H(p(x))+[−p(xi)log(q(xi))]
在机器学习中,第一项就是数据集的真实分布,定值,所以直接用第二项来衡量loss,评估模型