总述:分类和预测是数据挖掘当中梳理数据信息,提高有用数据浓度的常用操作,是数据挖掘的核心处理部分。
- 什么是分类,什么是预测
- 分类和预测需要注意的问题
- 使用决策树归纳分类
- 贝叶斯分类
- 基于规则的分类
- 向后传播分类
- 支持向量机
- 基于关联规则分析的分类
- 惰性学习法
- 其他的分类方法
- 预测
- 分类器或预测器的准确率和误差的度量
- 提高分类准确率的策略
- 如何选择合适的分类模型
1.什么是分类,什么是预测
答:数据分类需要两个步骤:第一个步骤是建立描述预定义的数据类或概念集的分类器,简单说就是建立分类的标准;第二个步骤是使用模型进行分类,先评估分类器预测的准确率,如果可以接受,则进一步应用到未知的数据集上进行分类。
数据预测也是有两个步骤:第一个步骤是寻找要预测的属性值与其他属性之间的函数关系或者映射关系;第二步是根据预测值和实际值进行评估和改进预测的映射关系。
2.分类和预测需要注意的问题
答:数据清理、相关分析、数据变换和规约是分类和预测所必需的数据预处理环节,这些环节有助于提高分类或预测的准确性、有效性、可伸缩性。
分类和预测的方法可以通过准确率、速度、鲁棒性、可伸缩性、可解释性几个方面去评估。
3、使用决策树归纳分类
答:决策树归纳是从类标记的训练元组学习决策树。决策树是一种类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试的输出,每个树叶节点存放一个类标号。这种决策树归纳类似于分支处理,而且不仅仅只是单独一层,而是存在递归层次的分支处理,叶子节点是最后分支处理的结果。决策树归纳的结果最后表现出来的非常类似于一组条件判断的结果。
在使用决策树归纳的时候,对连续取值和离散取值要做合理的分支处理或者分段;如果要判断的值只是属于其中某个分段,则要考虑采用剪枝的方式进行加速处理,类似于二分查找的情况。
使用决策树归纳处理属性选择度量的应用问题有信息增益、增益率、Gini指标。信息增益处理的问题是要将一组实体中某一属性进行划分,寻找合适的分组标准使得这个属性存取的值可以用最短的信息位进行表示。这个问题在算法中最具代表性的例子是哈夫曼编码问题。在信息增益问题当中,某一属性值占全体属性值的比重会影响其信息表示的长度,同时也要保证全体属性值按照这种分组标准分组的时候,其占用的信息存储长度是最短的。当属性值取值是连续值的时候,我们要进行分组的单位要比连续值的单位小一个数量级,将其转化为离散型取值问题。信息增益适用于具有大量值的属性。增益率是在信息增益扩充中应用分裂信息值 规范化信息增益。分裂信息值是训练数据集通过对应某个属性测试的m个分组标准产生的信息,可以计算出是分组后的信息增益值。拿这个训练产生的值去与基于分类的信息增益值做比较,在分裂信息值比较稳定的情况下,可以做出合理的比较。Gini指标是衡量数据集某属性按照某个取值标准分组后造成的属性值不纯度的降低,这个指标是衡量