【漫话机器学习系列】218.监督学习 vs 非监督学习（Supervised VS Unsupervised）

IT古董

于 2025-04-23 12:12:05 发布

阅读量921

点赞数 23

CC 4.0 BY-SA版权

分类专栏：漫话机器学习系列专辑文章标签：机器学习学习人工智能

本文链接：https://blog.youkuaiyun.com/IT_ORACLE/article/details/147414513

277 篇文章

订阅专栏

一图读懂监督学习 vs 非监督学习：新手也能看懂的机器学习核心概念

图源：Chris Albon

在机器学习领域，“监督学习（Supervised Learning）”和“非监督学习（Unsupervised Learning）”是最基础、也是最常用的两大类方法。很多初学者刚接触这些概念时容易混淆，本篇将结合图像内容，用简单通俗的语言，帮助你快速建立起直觉理解。

下面这张图出自 Chris Albon 的笔记风格手绘，对比展示了两种学习方式的本质区别：

监督学习是一种通过已标注数据进行训练的机器学习方法。它的目标是学会一个输入到输出的映射函数。

在监督学习中，对于每个样本，我们有一些特征值和一些以向量或张量形式表示的标签。我们同时使用它们来训练模型，输入给它一些 x 值然后得到一个预测值。

在这些任务中，我们拥有输入数据和目标输出（标签），因此称为“监督”。

非监督学习则是只有特征、没有标签的数据学习方式。它的目标是挖掘数据内部的结构、模式或分布。

在无监督学习中，我们只有特征并没有标签。这会使得预测结果变得困难，如果可以的话，尽可能使用有监督学习。

因为缺少标签，模型无法知道“对”与“错”，它只能通过相似性、结构性来推断数据间的关系。

这是非常实用的建议，因为：

当然，这也意味着你需要投入人力进行数据标注。若数据量大而标签昂贵，可以考虑迁移学习或半监督学习等替代方案。

除了这两种，还有以下常见方式：

类型	简要说明
半监督学习	小部分有标签，大部分无标签，用来节省标注成本
强化学习	通过环境奖励信号进行学习，广泛用于游戏、机器人领域
自监督学习	利用数据本身结构创造“伪标签”，是当前大模型训练主流方法