原文链接:
信息量:
事件发生概率越小信息量越大。
昨天下雨了,这件事情已经发生,既定了,信息量为0
对数函数,p(x_0)越小,负log越大
熵:
信息量的期望就是熵
KL散度:
交叉熵:
只有最后一部分有q(x_i),所以前面是常数,不用管。
原文链接:
事件发生概率越小信息量越大。
昨天下雨了,这件事情已经发生,既定了,信息量为0
对数函数,p(x_0)越小,负log越大
信息量的期望就是熵
只有最后一部分有q(x_i),所以前面是常数,不用管。