4、数据挖掘中的分类任务详解

perl8

于 2025-08-02 16:07:43 发布

阅读量68

点赞数

CC 4.0 BY-SA版权

分类专栏：自动化设计数据挖掘算法：遗传编程的新纪元文章标签：数据挖掘分类任务监督学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/perl8/article/details/150596363

自动化设计数据挖掘算法：遗传编程的新纪元专栏收录该内容

24 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据挖掘中的分类任务详解

1. 数据挖掘分类任务概述

数据挖掘算法大致可分为三种学习方法：监督学习、无监督学习和半监督学习。在监督学习中，算法处理的是已知标签的示例集。对于分类任务，标签可以是标称值；对于回归任务，标签则是数值（连续值）。无监督学习中，数据集中示例的标签是未知的，算法通常旨在根据示例属性值的相似性对其进行分组，这属于聚类任务。半监督学习常用于有少量已标记（预分类）示例和大量未标记示例的情况。这里主要讨论的是监督学习。

在监督分类任务中，每个示例（记录）都属于一个类别，由一个特殊的目标属性（有时称为目标属性或简称为类别属性）的值来指示。目标属性可以取分类（标称）值，每个值对应一个类别。每个示例由两部分组成：一组预测属性（特征）值和一个目标属性值，前者用于预测后者。预测属性应与预测示例的类别（目标属性值）相关。

由于分类任务在不同学科中都有研究，不同作者常使用不同术语来指代该任务的基本元素。例如，示例可以称为数据实例、对象、案例或记录，属性可以称为变量或特征。

分类任务中，被挖掘的示例集被分为两个互斥且完备的子集，即训练集和测试集。分类过程相应地分为两个阶段：训练阶段，从训练集中构建（或归纳）分类模型；测试阶段，在测试集（训练时未见过）上评估模型。

在训练阶段，算法可以访问训练集中所有示例的预测属性和目标属性的值，并利用这些信息构建分类模型。该模型代表了分类知识，即预测属性值与类别之间的关系，可根据示例的预测属性值预测其类别。

从分类算法的角度看，测试集包含未知类别的示例。在测试阶段，只有在做出预测后，算法才能“看到”刚分类示例的实际类别。分类算法的主要目标之一是在对训练时未见过的测试集示例进行分类时，使分类

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。