数据挖掘中的分类任务详解
1. 数据挖掘分类任务概述
数据挖掘算法大致可分为三种学习方法:监督学习、无监督学习和半监督学习。在监督学习中,算法处理的是已知标签的示例集。对于分类任务,标签可以是标称值;对于回归任务,标签则是数值(连续值)。无监督学习中,数据集中示例的标签是未知的,算法通常旨在根据示例属性值的相似性对其进行分组,这属于聚类任务。半监督学习常用于有少量已标记(预分类)示例和大量未标记示例的情况。这里主要讨论的是监督学习。
在监督分类任务中,每个示例(记录)都属于一个类别,由一个特殊的目标属性(有时称为目标属性或简称为类别属性)的值来指示。目标属性可以取分类(标称)值,每个值对应一个类别。每个示例由两部分组成:一组预测属性(特征)值和一个目标属性值,前者用于预测后者。预测属性应与预测示例的类别(目标属性值)相关。
由于分类任务在不同学科中都有研究,不同作者常使用不同术语来指代该任务的基本元素。例如,示例可以称为数据实例、对象、案例或记录,属性可以称为变量或特征。
分类任务中,被挖掘的示例集被分为两个互斥且完备的子集,即训练集和测试集。分类过程相应地分为两个阶段:训练阶段,从训练集中构建(或归纳)分类模型;测试阶段,在测试集(训练时未见过)上评估模型。
在训练阶段,算法可以访问训练集中所有示例的预测属性和目标属性的值,并利用这些信息构建分类模型。该模型代表了分类知识,即预测属性值与类别之间的关系,可根据示例的预测属性值预测其类别。
从分类算法的角度看,测试集包含未知类别的示例。在测试阶段,只有在做出预测后,算法才能“看到”刚分类示例的实际类别。分类算法的主要目标之一是在对训练时未见过的测试集示例进行分类时,使分类
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



