信息论基础
写在前面
至于为什么在更新《统计学习方法》的时候要插一个信息论相关的内容。主要是考虑到从下一章决策树开始,熵成了一个无法避免的讨论对象。所以就想单独拿出一章来讲一讲熵相关的内容。
当然,这篇写的不及许多的生动,甚至有陈列公示之嫌,但还是希望看到的人有所收获。
熵
熵其实是一个随机变量不确定性的度量。或者也可以理解成是平均意义上对随机变量的编码长度。
具体计算如下:
H(X)=−∑x∈χp(x)logp(x)H(X)=-\sum_{x \in \chi} p(x) \log p(x)H(X)=−x∈χ∑p(x)logp(x)
互信息
首先我们先看定义:
I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)I(X ; Y)=\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}I(X;Y)=x∈