机器学习中的数据处理:从数据集构建到特征选择
在机器学习领域,构建一个合适的数据集是打造成功模型的关键所在。正所谓“垃圾进,垃圾出”,如果训练数据无法准确代表模型在实际应用中会遇到的数据,那么模型的表现必然不尽如人意。接下来,我们将深入探讨如何创建一个能有效反映模型实际应用场景的优质数据集。
类别与标签
在机器学习的分类任务中,我们致力于构建能够将事物划分到不同离散类别(即类)的模型,例如狗的品种、花的类型、数字等。为了表示这些类别,我们会为训练集中的每个输入赋予一个标识符,即标签。标签可以是像“边境牧羊犬”这样的字符串,不过更常见的是以数字形式呈现,如 0 或 1。
模型本身并不理解输入所代表的实际含义,在它眼中,一切都是数字,标签亦是如此。由于标签对模型而言没有内在意义,我们可以根据需求灵活选择表示类别的方式。在实际应用中,类别标签通常是从 0 开始的整数。例如,若有 10 个类别,那么类别标签就是 0、1、2、…、9。以下是一个具体的映射示例:
| 标签 | 实际类别 |
| — | — |
| 0 | 飞机 |
| 1 | 汽车 |
| 2 | 鸟类 |
| 3 | 猫 |
| 4 | 鹿 |
| 5 | 狗 |
| 6 | 青蛙 |
| 7 | 马 |
| 8 | 船 |
| 9 | 卡车 |
通过这样的标签设置,每个属于狗的训练输入都会被标记为 5,而属于卡车的输入则会被标记为 9。那么,我们究竟在标记什么呢?接下来,让我们一同了解机器学习的核心要素——特征和特征向量。
特征与特征向量
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



