python数据挖掘---机器学习模型

机器学习模型

数据 + 算法

  • 算法

Clustering (聚类),旨在将数据根据相似性进行分组,不需要事先知道每个组的具体定义或标签。简单地说就是把相似的东西分到一组(簇),聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起。

因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习,这在Machine Learning中被称作unsupervised learning (无监督学习)。

常用算法有 K-means、层次聚类、DBSCAN等。

Classification (分类),是基于已知的标签将数据划分到预定义的类别中,对于一个classifier,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做supervised learning (监督学习)。

常用算法有 决策树、神经网络、支持向量机等。

数据标记 猫的图片 狗的图片

  • 分类算法 已经知道数据有哪些类 性别 男 ,女 认为将数据按照男女分类

  • 聚类算分 不知道数据有哪些,根据数据的相似度,将数据拆分成不同的类

数据挖掘的流程

  • 加载数据

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值