交叉熵为什么能当损失函数?因为最小化交叉熵与最小化KL散度等价。KL散度越小,说明两个分布越接近。
下面证明最小化交叉熵与最小化KL散度等价。
证明:
A的熵的公式:
A与B KL散度的公式:
A与B交叉熵的公式:
因此,A与B的交叉熵 = A与B的KL散度 - A的熵
A的熵表示真实数据的熵,该值固定。所以最小化A与B的交叉熵和最小化A与B的KL散度等价。
p.s. 熵是一种衡量信息不确定性的指标,熵越小,不确定性越小。
交叉熵为什么能当损失函数?因为最小化交叉熵与最小化KL散度等价。KL散度越小,说明两个分布越接近。
下面证明最小化交叉熵与最小化KL散度等价。
证明:
A的熵的公式:
A与B KL散度的公式:
A与B交叉熵的公式:
因此,A与B的交叉熵 = A与B的KL散度 - A的熵
A的熵表示真实数据的熵,该值固定。所以最小化A与B的交叉熵和最小化A与B的KL散度等价。
p.s. 熵是一种衡量信息不确定性的指标,熵越小,不确定性越小。