和分类算法一样,都是用于样本的类别划分的
区别:
分类算法是有监督的算法,也就是算法找到是特征属性x和类别属性y之间的关系,基于这样的关系,
对样本数据x做类别的划分预测
聚类算法是无监督的算法,也就是说训练数据中只有特征属性x,没有类别属性y,模型是通过找x的
特征信息,将数据划分为不同的类别,基于这样的划分,对于样本数据x认为和那个类别最接近来产生预
测。
##注意:如果特征工程做的不是很好,会导致一个样本属于两个以上的分类(因为特征上面有很高的相
似性)
备注:**分类算法的效果要比聚类算法的好,如果可以的情况下,一般选择分类算法
##聚类算法的用法:没有标签值,人工赋值又比较麻烦。这时候可以使用聚类算法做一次大的聚类,看下
具体属于哪个标签(一般做前期处理)
常用的聚类算法:KMeans、GMM高斯混合聚类、LDA
聚类算法的一般用法:作为前期的数据处理过程的一种数据标注的方
01_聚类算法概述

2_聚类算法中相似度度量方式讲解
02:05-02:24
注意:
1、用的比较多的是曼哈顿距离(又称城市距离)
总结
写到这里也结束了,在文章最后放上一个小小的福利,以下为小编自己在学习过程中整理出的一个关于 java开发 的学习思路及方向。从事互联网开发,最主要的是要学好技术,而学习技术是一条慢长而艰苦的道路,不能靠一时激情,也不是熬几天几夜就能学好的,必须养成平时努力学习的习惯,更加需要准确的学习方向达到有效的学习效果。
由于内容较多就只放上一个大概的大纲,需要更及详细的学习思维导图的 点击我的Gitee获取。
还有 高级java全套视频教程 java进阶架构师 视频+资料+代码+面试题!
全方面的java进阶实践技术资料,并且还有技术大牛一起讨论交流解决问题。