分类和聚类的区别

要知道分类和聚类的区别,了解一下有监督学习和无监督学习。这两个概念算是算法基础,同时也是面试官经常会问到的(小姐姐我就被问到了,当然我回答上来了--)

有监督学习

训练数据包括输入(features)和输出(lable)。常见的如:逻辑回归,支持向量机,深度学习。

无监督学习

训练数据只有输入。只能通过特征的相似性对样本聚类。常见的如:K-means,DBSCAN。

分类和聚类的区别

分类:有训练数据,且训练数据包含输入和输出(有监督学习),已知分类的类别(即训练数据的输出)。学习出一个模型,用该模型对未分好类(预测数据)的数据进行预测分类(已知的类别中)。

聚类:训练数据只有输入(无监督学习)。训练过程即预测过程(聚类过程),且不知道类别,甚至不知道有多少个类别,类别的数量需要指定(K-means),也可以直接通过算法学习出来(DBSCAN)。只能通过特征的相似性对样本分类。该过程即聚类。

Weka是一款流行的机器学习软件,其中包含了分类聚类分析的功能。分类聚类是机器学习中常用的两种方法,它们有着一些区别。 首先,分类聚类的目标不同。分类是一种监督学习的方法,其目标是根据已有的标签信息进行预测分类。它通过学习已有数据集中的模式规律,来将未知数据归到事先定义好的类别中。相比之下,聚类是一种无监督学习的方法,其目标是将数据集中的样本划分为相似的组别,寻找数据的内在结构模式,而无需事先定义好的类别。 其次,分类聚类所使用的算法技术也不同。在Weka中,分类常用的算法包括决策树、朴素贝叶斯、支持向量机等。这些算法通过训练数据集来生成一个分类模型,然后利用该模型对未知数据进行预测分类。而聚类常用的算法包括K均值聚类、层次聚类、DBSCAN等。这些算法通过计算样本之间的相似度或距离,将数据集中的样本划分为不同的组别。 此外,分类聚类对数据集的处理方式也不同。分类需要事先标注好的已知类别的训练数据集来进行学习预测。而聚类不需要任何关于类别的先验知识,只需根据数据样本本身的相似性进行划分。 综上所述,分类聚类是两种不同的机器学习方法。分类用于预测分类具有已知类别的数据,而聚类是用于将数据集中的样本划分为不同组别,寻找数据集中的内在结构模式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值