要知道分类和聚类的区别,了解一下有监督学习和无监督学习。这两个概念算是算法基础,同时也是面试官经常会问到的(小姐姐我就被问到了,当然我回答上来了--)
有监督学习
训练数据包括输入(features)和输出(lable)。常见的如:逻辑回归,支持向量机,深度学习。
无监督学习
训练数据只有输入。只能通过特征的相似性对样本聚类。常见的如:K-means,DBSCAN。
分类和聚类的区别
分类:有训练数据,且训练数据包含输入和输出(有监督学习),已知分类的类别(即训练数据的输出)。学习出一个模型,用该模型对未分好类(预测数据)的数据进行预测分类(已知的类别中)。
聚类:训练数据只有输入(无监督学习)。训练过程即预测过程(聚类过程),且不知道类别,甚至不知道有多少个类别,类别的数量需要指定(K-means),也可以直接通过算法学习出来(DBSCAN)。只能通过特征的相似性对样本分类。该过程即聚类。