分类和回归是预测问题的两种主要类型,分类的输出是离散的类别值, 而回归的输出是连续数值。
分类构造一个模型或分类器(Classifer)来预测类标号。
数据分类是一个两阶段过程:
- 学习阶段:建立描述预先定义的数据类或概念集的分类器。
分类算法通过分析或从训练集“学习”来构造分类器。
若训练集中每个训练元组的均有类标号,这一阶段也称为监督学习;
若训练集中每个训练元组都没有类标号,称为无监督学习;
若训练集中的训练元组既有包含类标号也有没有类标号的,称为半监督学习。 - 分类阶段:使用模型进行分类。
首先利用检验集评估分类的预测准确率,如果认为分类器的准确率是可以接受的,那么 就可以用它对类标号未知的数据元组进行分类。
回归所构造的模型预测一个连续值函数或有序值,而不是类标号。这种模型是预测器(Predictor)。回归分析(Regression Analysis)是数值预测最常用的统计学方法,因此这两个词常常作为同义词使用。