李宏毅老师课程:Unsupervised Learning:Introduction

本文深入探讨无监督学习两大核心——聚类与降维。通过层次聚类(HAC)实现数据简化,介绍如何通过降维技术如PCA,将高维数据转化为低维表示,提升数据处理效率。

Overview

无监督学习(Unsupervised Learning)可以分为两种:

  • 化繁为简:
    聚类(Clustering)
    降维(Dimension Reduction)
  • 无中生有(Generation)
    在这里插入图片描述

Clustering

Introduction

聚类就是把相近的样本划分为同一类,比如对下面这些没有标签的image进行分类,手动打上cluster 1、cluster 2、cluster 3的标签,这个分类过程就是化繁为简的过程
在这里插入图片描述

HAC(层次聚类)

假设现在我们有5个样本点,想要做clustering:

  • build a tree:
    整个过程类似建立Huffman Tree,只不过Huffman是依据词频,而HAC是依据相似度建树
    • 对5个样本点两两计算相似度,挑出最相似的一对,比如样本点1和2
    • 将样本点1和2进行merge (可以对两个vector取平均),生成代表这两个样本点的新结点
    • 此时只剩下4个结点,再重复上述步骤进行样本点的合并,直到只剩下一个root结点
  • pick a threshold:
    选取阈值,形象来说
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值