数据挖掘——无监督学习

最新推荐文章于 2024-01-02 01:20:54 发布

原创

最新推荐文章于 2024-01-02 01:20:54 发布 · 1.9k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#数据挖掘 #学习 #聚类

本文深入介绍了无监督学习中的聚类算法，包括K-means和DBSCAN。K-means是一种基于划分的方法，适合发现球形簇，而DBSCAN能发现任意形状的簇，对噪声数据更鲁棒。降维技术如PCA用于减少特征维度，帮助理解数据并实现可视化。PCA通过寻找主要线性分量来最大化方差，降低数据复杂度。

一、概述

无监督学习算法：让计算机自己学习，没有属性或者标签

有监督学习算法：每个样本都已经被标明，我们已经被告知了学习的答案

无监督学习的典型算法是聚类算法和降维

二、聚类算法

1、概念：聚类分析，将数据对象分组成为多个蔟，同一簇中的对象彼此相似，不同簇中的对象彼此相异

2、功能：作为一个独立的工具来获得数据分布的情况，作为其他算法（如特征和分类）的预处理的步骤

3、应用场景：帮市场分析人员从客户基本库中发现不同的客户群体，从而可以对不同的客户群采取不同的营销策略。保险业：发现汽车保险中索赔率较高的客户群；城市规划：根据房子的类型、价值和地理位置对其进行分组

4、评判标准：

可扩展性：大多数来自于机器学习和统计学领域的聚类算法在处理数百万条数据时能够体现出高效率来

处理不同数据类型的能力：数字型、二次元型、图像型等等

发现任意形状的能力：基于距离的聚类算法往往发现的是球形的聚类，其实现实的聚类是任意形状的

处理噪声数据的能力：对空缺值、离群点、数据噪声不敏感

对于输入数据的顺序不敏感：同一个数据集合，以不同的次序提交给同一个算法，应该产生相似的结果

5、主要的聚类方式：

基于划分的方法：将数据集中的对象分配到n个簇中，并且通过设定目标函数来驱使算法趋向于目标，且每个组至少包含一个对象，每个对象必须只属于一个组，如K-means聚类、K均值算法

基于层次的方法：是指对于给定的数据集对象，我们通过层次聚类算法获得一个具有层次结构的数据集合子集结合的过程，层次聚类分为两种：自底向上的凝聚法、自顶向下的分裂法

基于密度的方法：基于主要特点: 发现任意形状的聚类处理噪音需要密度参数作为终止条件、如DBSCAN

（DBSCAN聚类方式一个动态网站： https://www.naftaliharris.com/blog/visualizi

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。