数据中的信息度量与决策树构建
1. 数据信息度量概述
在数据分类中,我们已经有了使用单个特征为总体创建分类器的方法,无论该特征的类型如何,也不管是否存在缺失值。但我们不能仅局限于一次使用一个特征,而忽略其他可用特征中潜在的信息。
我们可以借鉴“20 个问题”游戏的思路来扩展模型。在每一轮中,我们可以从特征列表中选择一个关于观测值的“问题”,例如“乘客是男性还是女性?”“他乘坐的是头等舱、二等舱还是三等舱?”。基于这些问题的答案,我们需要做出决策:是否有足够的信息进行预测(是否存活),或者根据已得到的答案(如“乘客是男性”),是否要问另一个问题以提高得出正确答案的几率。
这里的关键问题是如何度量和比较信息,以便确定最佳的问题序列。
2. 用熵度量不确定性
2.1 熵的概念
一个特征本身并不具有信息性,信息在于可能得到的答案以及这些答案如何帮助我们确定最可能的标签。为了衡量一个问题的信息性,我们需要考虑知道答案后能获得多大的优势。例如,知道“乘客是男性”和“乘客乘坐头等舱”哪个更有帮助呢?
我们真正关心的不是乘客的性别,而是如果知道他是男性,对他存活的确定性有多大。如果被告知“如果乘客是男性,他有 50%的存活几率”,这几乎等同于说该信息毫无价值。相反,如果男性有 100%的存活几率或者完全相反,那么这就是完美的信息,无需再问其他问题。
信息论中用熵(具体为香农熵)来度量这种不确定性。对于一个样本总体,其熵的计算公式为:
[entropy(sample) = \sum [ - p(x) * \log p(x) ]]
其中,(p(x)) 是样本中 (x) 的比
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



