无监督学习:介绍
Overview
无监督学习(Unsupervised Learning)可以分为两种:
- 化繁为简:
聚类(Clustering)
降维(Dimension Reduction) - 无中生有(Generation)

Clustering
Introduction
聚类就是把相近的样本划分为同一类,比如对下面这些没有标签的image进行分类,手动打上cluster 1、cluster 2、cluster 3的标签,这个分类过程就是化繁为简的过程

HAC(层次聚类)
假设现在我们有5个样本点,想要做clustering:
- build a tree:
整个过程类似建立Huffman Tree,只不过Huffman是依据词频,而HAC是依据相似度建树- 对5个样本点两两计算相似度,挑出最相似的一对,比如样本点1和2
- 将样本点1和2进行merge (可以对两个vector取平均),生成代表这两个样本点的新结点
- 此时只剩下4个结点,再重复上述步骤进行样本点的合并,直到只剩下一个root结点
- pick a threshold:
选取阈值,形象来说

本文深入探讨无监督学习两大核心——聚类与降维。通过层次聚类(HAC)实现数据简化,介绍如何通过降维技术如PCA,将高维数据转化为低维表示,提升数据处理效率。
最低0.47元/天 解锁文章
450

被折叠的 条评论
为什么被折叠?



