1.什么是决策树
2.特征选择
特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树的学习效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大的区别。则称这个特征是没有分类能力的。经验上扔掉这些特征对决策树学习的精度影响不大,通常特征选择的准则是信息增益或信息增益比。
3.信息增益
在信息论与概率统计中,熵是表示随机变量不确定性的度量,设X是一个取有限值的离散随机变量,其概率分布为
(1)
则随机变量X的熵定义为
(2)
通常,式(1)中的对数以2为底或以e为底,这时熵的单位分别称为比特(bit)或纳特(nat)。由定义可知熵只依赖与X的分布,而与X的取值无关。
信息增益:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即
决策树学习应用信息增益准则选择特征。给定训练数据集D和特征A,经验熵H(D)表示对数据集D进行分类的不确定性,而经验条件熵H(D|A)表示在特征A给定的条件下对数据集D进行分类的不确定性。那么他们的差,即信息增益,就表示由于特征A给定的条件下对数据集D的分类的不确定性减少的程度。显然,对于数据集D而言,信息增益依赖于特征,不同的特征往往具有不同的信息增益,信息增益大的特征具有更强的分类能力。
4.决策树的生成
4.1 ID3算法