数据挖掘之分类和预测简介

本文介绍了数据挖掘中的分类和预测概念。分类用于预测离散类别的数据,如银行贷款的风险评估;预测则针对连续值,如贷款金额预测。分类通过训练建立模型并进行评估,预测同样涉及模型构建和准确性评估。两者在市场营销、客户细分等多个领域有广泛应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分类和预测是两种使用数据进行预测的方式,可用来确定未来的结果。

分类是用于预测数据对象的离散类别的,需要预测的属性值是离散的、无序的。

预测则是用于预测数据对象的连续取值的,需要预测的属性值是连续的、有序的。

例如,在银行业务中,根据贷款申请者的信息来判断贷款者是属于“安全”类还是“风险”类,这是数据挖掘中的分类任务。而分析给贷款人的贷款量就是数据挖掘中的预测任务。

本节将对常用的分类与预测方法进行介绍,其中有些算法是只能用来进行分类或者预测的,但是有些算法是既可以用来进行分类,又可以进行预测的。

分类的基本概念

分类算法反映的是如何找出同类事物的共同性质的特征型知识和不同事物之间的差异性特征知识。分类是通过有指导的学习训练建立分类模型,并使用模型对未知分类的实例进行分类。分类输出属性是离散的、无序的。

分类技术在很多领域都有应用。当前,市场营销的很重要的一个特点就是强调客户细分。采用数据挖掘中的分类技术,可以将客户分成不同的类别。

例如,可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;设计呼叫中心时可以把客户分为呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他、来帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客户的分布特征。

其他分类应用还有文献检索和搜索引擎中的自动文本分类技术,安全领域的基于分类技术的入侵检测等。

分类就是通过对已有数据集(训练集)的学习,得到一个目标函数 f(模型),来把每个属性集 X 映射到目标属性 y(类)上(y 必须是离散的)。

分类过程是一个两步的过程:第一步是模型建立阶段,或者称为训练阶段,第二步是评估阶段。

1)训练阶段

训练阶段的目的是描述预先定义的数据类或概念集的分类模型。该阶段需要从已知的数据集中选取一部分数据作为建立模型的训练集,而把剩余的部分作为检验集。通常会从已知数据集中选取 2/3 的数据项作为训练集,1/3 的数据项作为检验集。

训练数据集由一组数据元组构成,假定每个数据元组都已经属于一个事先指定的类别。训练阶段可以看成为学习一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值