考虑某个未知的分布p(x)p(x)p(x),假定我们已经使用了一个近似的分布q(x)q(x)q(x)对它进行了建模。如果我们使用q(x)q(x)q(x)来建立一个编码体系,用来把x的值传给接受者,那么由于我们使用了q(x)q(x)q(x)而不是真正的p(x)p(x)p(x),因此在具体化x的值时,我们需要一些附加信息。我们需要的平均的附加信息量为KL(p∣∣q)=−∫p(x)lnq(x)dx−(−∫p(x)lnp(x)dx)KL(p||q)=-\int p(x)\mathrm{ln} q(x)dx-(-\int p(x)\mathrm{ln}p(x)dx)KL(p∣∣q)=−∫p(
机器学习面试必知:KL散度
最新推荐文章于 2025-06-29 14:39:38 发布