决策树(分类树)是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。决策树只需要构建一次,每一次预测分类的最大计算次数不超过决策树的深度。
决策树学习算法
ID3算法
通过自顶向下构造决策树来进行学习,构造过程是从”选取分类能力最好的属性作为根节点被测试”开始,然后为根节点属性的每个可能值产生一个分支。选择合适的分割点,将分类的各个子集都很”纯净”。
ID3算法是一种贪心算法,在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准。
量化纯度
如果属性被分为n类,每一类的比例P(i)=第i类的数目/总数目。
(1)Gini不纯度
(2)熵、信息增益和信息增益率
设D是样本训练集,D的熵为
假设按照属性A划分D中的样本,属性A将D划分为v个不同的类。划分之后,训练集的熵为:
信息增益为: