1 熵
熵其实是信息量的期望值,它是一个随机变量的确定性的度量。熵越大,变量的取值越不确定,越无序。
公式:
H(X)=E[I(x)]=−E[logP(x)]=-∑P(xi)logP(xi)
熵代表信息量,基于P分布自身的编码长度,是最优的编码长度。
2 MLE最大似然估计
假设有m个样本的数据集,由未知的真实数据分布pdata(x)独立生成
最大似然估计是参数估计的方法之一。
给定:模型(概率分布,有固定的但是未知的参数)和数据集(随机样本)
估计:模型的未知参数
最大似然估计建立在这样的思想上:在一次抽样中,我们求出某个参数能使这个随机样本出现的概率最大,我们把这个参数作为对真实参数的估计。
(最大似然估计的依据就是:概率最大的事件最有可能发生。)
(隐含的思想是:每种参数的先验概率相同或近似)
3 KL散度(Kullback-Leibler Divergence)
D(P||Q)=H(P,Q)-H§
交叉熵减熵
计算
https://blog.youkuaiyun.com/Teeyohuang/article/details/82391251
4 交叉熵
H(P,Q)代表用P的分布表示Q分布的信息,比熵要大。需要更长的编码。并且分布差异越大,需要的编码长度越长。代表冗余编码长度。
5 KL散度与MLE的关系
最小化KL散度等效于最大似然估计MLE