K-Means聚类

聚类的作用:

  • 知识发现 发现事物之间的潜在关系

  • 异常值检测

  • 特征提取 数据压缩的例子

有监督和无监督学习:

有监督:

  • 给定训练集 X 和 标签Y

  • 选择模型

    • 学习(目标函数的最优化)

    • 生成模型(本质上是一组参数、方程)

根据生成的一组参数进行预测分类等任务

无监督:

  • 拿到的数据只有X ,没有标签,只能根据X的相似程度做一些事情。

  • Clustering 聚类

    • 对于大量未标注的数据集,按照内在相似性来分为多个类别(簇) 目标:类别内相似度大,类别间相似小。

    • 也可以用来改变数据的维度,可以将聚类结果作为一个维度添加到训练数据中。

  • 降维算法,数据特征变少

相似度:

数据间相似度:

 

  • 每一条数据都可以理解为多维空间中的一个点。

  • 可以根据点和点之间的距离来评价数据间的相似度

  • 近朱者赤近墨者黑!

​​​​​​​欧式距离:

 

闵可夫斯基距离:

 

 

余弦距离:

将数据看做空间中的点的时候,评价远近可以用欧氏距离或者余弦距离。

计算过程如下:

  • 将数据映射为高维空间中的点(向量)

  • 计算向量

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值