机器学习中分类和预测算法的评估:
准确率
速度
强壮性:有噪声可以不受干扰
可规模性:数据特别大(指数级增长)的能够继续使用
可解释性:当我们算法对特征值的选择和归类的时候,能够非常容易解释我们学习出来的模型
决策树(分类算法)
决策树是一个类似于流程图的树结构:其中,每个内部节点表示在一个属性上的测试,每个分支比哦啊是一个属性的输出,而每个数叶节点代表类或类分布。数的最顶层是根节点。
信息熵:信息量的度量就等于不确定的多少(单位bit)
变量的不确定性越大,熵也就越大
1、决策树归纳算法(ID3)
选择属性判断节点
信息获取量(infomation Gain):
Gain(A) = info(D)- info_A(D)
通过A来作为节点分类获取了多少信息
info_age(D)是按照年龄为分类方法取得的信息量
决策树的创建过程
1、树以代表训练样本的单个节点开始
2、如果样本都在同一个类,则该节点为树叶,并用该类标号
3、否贼,算法使用成为信息增益的基于熵的度量作为启发信息,选择能够最好的样本分类属性。该属性成为该节点的 ‘测试’或‘判定’属性。在算法的该版本中
4、所有的属性都是分类的,即离散值。连续属性离散化。
5、对测试属性的每个已知的值,创建一个分支,并据此划分样本
6、算法使用同样的构成,递归形成分割划分上的样本判定树。一旦一个属性出现在一个节点上,就不必该节点的任何后代上考虑他。
7、递归划分步骤仅当下列条件之一成立停止:
a、给定节点的所有样本属于同一类
b、没有剩余属性可以用来进一步划分样本。在此情况下,使用多数表决
这涉及将给定的结点转换成树叶,并用样本中的多数所在的类标记它。替换的,可以存放节点样本的类分布
c、分支test_attribute =a ,没有样本。在这种情况下,以samples中的多数类创建一个树叶
其他算法:C4.5 , CART
共同点:贪心算法,自上而下
区别:属性选择度量方法不同C4.5(Gain ratio),CART(Gain index) ID3(Infomation Gain)
如何处理连续性变量的属性
1、树剪枝叶(避免overfitting)
1.1 先剪枝
1.2 后剪枝
2、决策树的优点:
直观,便于理解,小规模数据集有效
3、决策树的缺点:
处理连续变量不好
类别较多时,错误增加的比较快
可规模性一般