分类和预测是两种数据分析形式,可以用于提取描述重要数据量的模型或预测未来的数据趋势。然而,分类是预测分类标号,而预测建立连续值函数模型。
数据分类两过程:
1.建立模型,描述预定的数据类或概念集。学习模型用分类规则、判定树或数学公式的形式提出。
2.使用模型进行分类。利用测试集评估模型的预测准确率,如果准确率可以接受,可以用来对未知数据元组分类。
预测是构造和使用模型评估无标号样本,或者评估给定样本可能具有的属性值或值区间。
分类和回归时两类主要预测问题。其中,分类是预测离散或标称值,而回归用于预测连续或有序值。
关于分类和预测的问题:
准备分类和预测的数据:数据清洗、相关性分析、数据变换
分类好坏的指标:预测的准确率、速度、鲁棒性、可规模性、可解释性。
用判定树归类分类:
判定树归纳: