机器学习模型
数据 + 算法
-
算法
Clustering (聚类),旨在将数据根据相似性进行分组,不需要事先知道每个组的具体定义或标签。简单地说就是把相似的东西分到一组(簇),聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起。
因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习,这在Machine Learning中被称作unsupervised learning (无监督学习)。
常用算法有 K-means、层次聚类、DBSCAN等。
Classification (分类),是基于已知的标签将数据划分到预定义的类别中,对于一个classifier,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做supervised learning (监督学习)。
常用算法有 决策树、神经网络、支持向量机等。
数据标记 猫的图片 狗的图片
-
分类算法 已经知道数据有哪些类 性别 男 ,女 认为将数据按照男女分类
-
聚类算分 不知道数据有哪些,根据数据的相似度,将数据拆分成不同的类
数据挖掘的流程
-
加载数据