分类预测&聚类

最新推荐文章于 2025-04-03 22:13:16 发布

原创最新推荐文章于 2025-04-03 22:13:16 发布 · 5.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#聚类 #算法 #机器学习 #数据挖掘

机器学习同时被 3 个专栏收录

28 篇文章

订阅专栏

18 篇文章

订阅专栏

14 篇文章

订阅专栏

分类预测&聚类

分类和聚类的不同，点击进行学习。

分类

概念

建立模型，描述预定的数据类集或概念集；之后使用模型进行分类。

预测

构造和使用模型评估无标号样本类，或评估给定样本可能具有的属性值或值区间。

有监督学习(分类)

训练集是带有类标签的
新的数据是基于训练集进行分类的

无监督学习(聚类)

训练集是没有类标签的
提供一组属性，然后寻找出训练集中存在类别或者聚集。

关于分类和预测的问题

数据准备
- 数据清洗：对数据进行预处理，消除噪音和丢失值
- 相关性分析(属性选择)：去掉不相关或者冗余的属性
- 数据转换：泛化或者对数据进行标准化
评估、比较分类方法
- 预测的准确率
- 速度：创建速度、使用速度
- 健壮性：处理噪声数据和缺失值数据的能力
- 伸缩性：对大量数据，对磁盘驻留数据的处理能力
- 可解释性：对模型的k可理解和解释的程度
- 规则好坏的评价：决策树的大小、分类规则的简明性

决策树

思想(贪心)

自上而下分而治之的方法
开始时，所有的数据都在根节点上
属性都是离散值字段（if 连续 : 离散化)
所有记录用所选属性递归进行分割
属性的选择是基于一个启发式规则或者一个统计的度量

停止分割的条件

每一个节点上的数据都是属于同一个类别
没有属性可以在用于对数据进行分割

Overfitting

生成的原因

太多的分支，有些可能是对异常例外的反应
在进行预测的时候准确率较低

解决方法

预剪枝
- 难点：选择一个阈值比较困难
后修建
- 使用另外一个测试集来决定那个树最好

SLIQ算法

点击进行学习。

贝叶斯分类算法

粗糙集算法

解决不确定性问题，是对某一对象集合的近似。
处理不确定问题的最大优点:它不需要关于数据的预先或附加的信息，而且易于掌握和使用
可用于从数据库(数据仓库)中发现分类规则。

聚类

什么是聚类分析

簇

一个数据对象的集合

聚类分析(无监督)

把一个给定的数据对象分成不同的簇
在同一个簇中，对象之间具有相似性
不同簇的对象之间是相异的

典型应用

模式识别
空间数据分析
图像处理
经济学(市场研究)
分档分类

eg：市场营销、土地使用、保险、城市规划、地震研究

数据挖掘对聚类的要求

可伸缩性
能够处理不同类型的属性
能发现任意形状的簇
能够处理噪声和异常
对输入数据随想的顺序不敏感
能处理高维数据
能产生一个好的，满足用户指定约束的聚类结果
结果是可解释的、可理解的和可用的

评价方法

一个好的聚类方法要能产生高质量的聚类结果—簇，这些簇具有一下两个特点：

高的簇内相似性
低的簇间相似性

So，如何计算相似性

通常使用距离来衡量两个对象之间的相异度。

明考斯基距离(Minkowski distance):

20200601222639161

相似性

So，如何计算相似性

通常使用距离来衡量两个对象之间的相异度。

明考斯基距离(Minkowski distance):

[外链图片转存中…(img-kSASuJsQ-1591021899119)]
简单匹配系数----评价二元变量之间的相似性

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。