一、决策树
决策树(分类)定义:分类决策树模型是一种描述对实例进行分类得树形结构,决策树由节点(node)和有向边(directed edge)组成,节点有两种类型:内部节点(internal node)和叶结点(leaf node),内部结构表示一个特征或属性,叶结点表示一个类;
信息熵:单位比特,计算公式如信息增益:决策树得划分依据之一,特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为
常见决策树使用得算法:ID3:信息增益;C4.5:信息增益比;CART:回归树是平方误差最小,分类树采用得是基尼系数;
sklearn决策树API:sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None),其中,criterion:默认是’gini’系数,也可以选择信息增益的熵’entropy’,max_depth:树的深度大小,random_state:随机数种子ÿ