12.聚类算法

本文对比了分类和聚类算法的区别,指出分类算法依赖已知标签进行监督学习,而聚类算法则在无标签数据中寻找内在结构。聚类可能产生样本交叉分类的问题,效果通常不及分类算法。聚类常用于数据预处理,如在标签不明确时进行初步分组。常见的聚类算法包括KMeans、GMM和LDA。在实际应用中,根据具体情况选择适合的算法至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

和分类算法一样,都是用于样本的类别划分的
  区别:
    分类算法是有监督的算法,也就是算法找到是特征属性x和类别属性y之间的关系,基于这样的关系,
对样本数据x做类别的划分预测
	聚类算法是无监督的算法,也就是说训练数据中只有特征属性x,没有类别属性y,模型是通过找x的
特征信息,将数据划分为不同的类别,基于这样的划分,对于样本数据x认为和那个类别最接近来产生预
测。
  ##注意:如果特征工程做的不是很好,会导致一个样本属于两个以上的分类(因为特征上面有很高的相
  似性)
  备注:**分类算法的效果要比聚类算法的好,如果可以的情况下,一般选择分类算法
  ##聚类算法的用法:没有标签值,人工赋值又比较麻烦。这时候可以使用聚类算法做一次大的聚类,看下
  具体属于哪个标签(一般做前期处理)
  常用的聚类算法:KMeans、GMM高斯混合聚类、LDA
  聚类算法的一般用法:作为前期的数据处理过程的一种数据标注的方

01_聚类算法概述

2_聚类算法中相似度度量方式讲解

02:05-02:24

注意:
    1、用的比较多的是曼哈顿距离(又称城市距离)

总结

写到这里也结束了,在文章最后放上一个小小的福利,以下为小编自己在学习过程中整理出的一个关于 java开发 的学习思路及方向。从事互联网开发,最主要的是要学好技术,而学习技术是一条慢长而艰苦的道路,不能靠一时激情,也不是熬几天几夜就能学好的,必须养成平时努力学习的习惯,更加需要准确的学习方向达到有效的学习效果。

由于内容较多就只放上一个大概的大纲,需要更及详细的学习思维导图的 点击我的Gitee获取
还有 高级java全套视频教程 java进阶架构师 视频+资料+代码+面试题!

全方面的java进阶实践技术资料,并且还有技术大牛一起讨论交流解决问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值