信息论基础
写在前面
至于为什么在更新《统计学习方法》的时候要插一个信息论相关的内容。主要是考虑到从下一章决策树开始,熵成了一个无法避免的讨论对象。所以就想单独拿出一章来讲一讲熵相关的内容。
当然,这篇写的不及许多的生动,甚至有陈列公示之嫌,但还是希望看到的人有所收获。
熵
熵其实是一个随机变量不确定性的度量。或者也可以理解成是平均意义上对随机变量的编码长度。
具体计算如下:
H(X)=−∑x∈χp(x)logp(x)H(X)=-\sum_{x \in \chi} p(x) \log p(x)H(X)=−x∈χ∑p(x)logp(x)
互信息
首先我们先看定义:
I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)I(X ; Y)=\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}I(X;Y)=x∈

本文介绍了信息论的基础概念,包括熵作为随机变量不确定性的度量,互信息表示得知Y后X的信息量减少程度,以及相对熵用于量化两个分布的差异。通过这些概念,可以更好地理解决策树中熵的重要性。
最低0.47元/天 解锁文章
866





