7、机器学习中的数据处理:从数据集构建到特征选择

机器学习中的数据处理:从数据集构建到特征选择

在机器学习领域,构建一个合适的数据集是打造成功模型的关键所在。正所谓“垃圾进,垃圾出”,如果训练数据无法准确代表模型在实际应用中会遇到的数据,那么模型的表现必然不尽如人意。接下来,我们将深入探讨如何创建一个能有效反映模型实际应用场景的优质数据集。

类别与标签

在机器学习的分类任务中,我们致力于构建能够将事物划分到不同离散类别(即类)的模型,例如狗的品种、花的类型、数字等。为了表示这些类别,我们会为训练集中的每个输入赋予一个标识符,即标签。标签可以是像“边境牧羊犬”这样的字符串,不过更常见的是以数字形式呈现,如 0 或 1。

模型本身并不理解输入所代表的实际含义,在它眼中,一切都是数字,标签亦是如此。由于标签对模型而言没有内在意义,我们可以根据需求灵活选择表示类别的方式。在实际应用中,类别标签通常是从 0 开始的整数。例如,若有 10 个类别,那么类别标签就是 0、1、2、…、9。以下是一个具体的映射示例:
| 标签 | 实际类别 |
| — | — |
| 0 | 飞机 |
| 1 | 汽车 |
| 2 | 鸟类 |
| 3 | 猫 |
| 4 | 鹿 |
| 5 | 狗 |
| 6 | 青蛙 |
| 7 | 马 |
| 8 | 船 |
| 9 | 卡车 |

通过这样的标签设置,每个属于狗的训练输入都会被标记为 5,而属于卡车的输入则会被标记为 9。那么,我们究竟在标记什么呢?接下来,让我们一同了解机器学习的核心要素——特征和特征向量。

特征与特征向量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值