文本分类算法之决策树.ID3实现


       文本分类,字面意思来说就是对文本进行分类。其实就是这样,文本分类是根据文本所具有的一些特征和属性来将其判别为事先确定的几个类别的过程。常用的分类方法有朴素贝叶斯方法,K近邻方法(KNN),支持向量机(SVM),决策树方法,神经网络方法等等。本文主要来介绍决策树的一种实现。

       决策树是通过文本的一些属性来建立的一个模型。决策树采用自顶向下的方式,树中的每个结点都代表一个属性,该结点的每棵子树都代表这个属性的一个确定取值,叶结点上放着决策值。用决策树对目标属性进行判断时,将从树根出发,沿着已知的属性进入子树,知道找到叶结点,也就得到的预测结果。所以从跟结点到每一个叶结点的路径都是一条决策规则。

       引用他人博文(①)中的一个例子:

       通俗来说,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:

        女儿:多大年纪了?

      母亲:26。

      女儿:长的帅不帅?

      母亲:挺帅的。

      女儿:收入高不?

      母亲:不算很高,中等情况。

      女儿:是公务员不?

      母亲:是,在税务局上班呢。

      女儿:那好,我去见见。

      这个女孩的决策过程就是典型的分类树决策。相当于通过年龄、长相、收入和是否公务员对将男人分为两个类别:见和不见。假设这个女孩对男人的要求是:30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员,那么这个可以用下图表示女孩的决策逻辑(声明:此决策树纯属为了写文章而YY的产物,没有任何根据,也不代表任何女孩的择偶倾向,请各位女同胞莫质问我^_^):

      上图完整表达了这个女孩决定是否见一个约会对象的策略,其中绿色节点表示判断条件,橙色节点表示决策结果,箭头表示在一个判断条件在不同情况下的决策路径,图中红色箭头表示了上面例子中女孩的决策过程。

      这幅图基本可以算是一颗决策树,说它“基本可以算”是因为图中的判定条件没有量化,如收入高中低等等,还不能算是严格意义上的决策树,如果将所有条件量化,则就变成真正的决策树了。


       决策树方法的起源是概念学习系统CLS,然后发展到ID3方法,最后又演化为能处理连续属性的C5.0.有名的决策树方法还有CART和Assistant。这里我的实现方法是ID3。


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值