聚类的作用:
-
知识发现 发现事物之间的潜在关系
-
异常值检测
-
特征提取 数据压缩的例子
有监督和无监督学习:
有监督:
-
给定训练集 X 和 标签Y
-
选择模型
-
学习(目标函数的最优化)
-
生成模型(本质上是一组参数、方程)
-
根据生成的一组参数进行预测分类等任务
无监督:
-
拿到的数据只有X ,没有标签,只能根据X的相似程度做一些事情。
-
Clustering 聚类
-
对于大量未标注的数据集,按照内在相似性来分为多个类别(簇) 目标:类别内相似度大,类别间相似小。
-
也可以用来改变数据的维度,可以将聚类结果作为一个维度添加到训练数据中。
-
-
降维算法,数据特征变少
相似度:
数据间相似度:
-
每一条数据都可以理解为多维空间中的一个点。
-
可以根据点和点之间的距离来评价数据间的相似度
-
近朱者赤近墨者黑!
欧式距离:
闵可夫斯基距离:
余弦距离:
将数据看做空间中的点的时候,评价远近可以用欧氏距离或者余弦距离。
计算过程如下:
-
将数据映射为高维空间中的点(向量)
-
计算向量