《从机器学习到深度学习》笔记（2）无监督学习

最新推荐文章于 2025-07-04 18:59:41 发布

学习如逆水行舟

最新推荐文章于 2025-07-04 18:59:41 发布

阅读量826

点赞数

CC 4.0 BY-SA版权

文章标签：机器学习深度学习 Tensorflow sklearn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/kgsew/article/details/89450424

本文介绍了无监督学习的背景及其在减少人工标注需求中的作用。无监督学习主要包括聚类和降维两大分支，其中聚类如K-means、DBSCAN等用于数据分组，降维如PCA、LLE用于减少特征维度。文章还概述了各类算法的基本原理，为后续深入学习无监督学习打下基础。

有监督学习用于解决分类问题的前提是必须有一个带标签数据的样本集，但获得数据标签的代价往往是非常昂贵的。同时，这些标签通常都是人工标注，标注错误的情况也时有发生。这样就促使了无监督学习策略的发展，简单的说它就是：

对无标签数据进行推理的机器学习方法。

1. 场景

由于无监督学习的前提是不需要前期的人类判断，所以它一般是作为某项学习任务的前置步骤，用于规约数据；在无监督学习之后，需要加入人类知识以使成果有实用价值。图1-10从人类知识加入的时间点比较了两种学习策略。

图1-10 有监督学习与无监督学习

一般来说人类理解由无监督学习规约后的数据比整理样本数据中的标签更容易些，所以总体上无监督学习需要更少的人工参与。

无监督学习的算法比较丰富，按整理数据的方式有两大分支：

聚类（Clustering）：是最主要的无监督学习方式，是指将已有的样本数据分成若干个子集。生成的模型也可用于为新样本划分类别。
降维（Dimensionality Reduction）：即以保持数据之间现有距离关系不变为目标，将高维数据转换为低维数据，。

此外还有一些小的算法族群比如协方差分析（Covariance Estimation）、边缘检测（Outlier Detection）等。

图1-11举例说明作为最重要无监督学习方式的聚类适用场景。它是一个银行客户的聚类示意图，其将已有的客户总体分成两个子集。在进行聚类训练后，新客户也可用已有的模型划分到相应子集。

最低0.47元/天解锁文章

新学期VIP享超值加赠

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。