数据挖掘——无监督学习

本文深入介绍了无监督学习中的聚类算法,包括K-means和DBSCAN。K-means是一种基于划分的方法,适合发现球形簇,而DBSCAN能发现任意形状的簇,对噪声数据更鲁棒。降维技术如PCA用于减少特征维度,帮助理解数据并实现可视化。PCA通过寻找主要线性分量来最大化方差,降低数据复杂度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、概述

无监督学习算法:让计算机自己学习,没有属性或者标签

有监督学习算法:每个样本都已经被标明,我们已经被告知了学习的答案

无监督学习的典型算法是聚类算法和降维

二、聚类算法

1、概念:聚类分析,将数据对象分组成为多个蔟,同一簇中的对象彼此相似,不同簇中的对象彼此相异

2、功能:作为一个独立的工具来获得数据分布的情况,作为其他算法(如特征和分类)的预处理的步骤

3、应用场景:帮市场分析人员从客户基本库中发现不同的客户群体,从而可以对不同的客户群采取不同的营销策略。保险业:发现汽车保险中索赔率较高的客户群;城市规划:根据房子的类型、价值和地理位置对其进行分组

4、评判标准:

可扩展性:大多数来自于机器学习和统计学领域的聚类算法在处理数百万条数据时能够体现出高效率来

处理不同数据类型的能力:数字型、二次元型、图像型等等

发现任意形状的能力:基于距离的聚类算法往往发现的是球形的聚类,其实现实的聚类是任意形状的

处理噪声数据的能力:对空缺值、离群点、数据噪声不敏感

对于输入数据的顺序不敏感:同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果

5、主要的聚类方式:

基于划分的方法:将数据集中的对象分配到n个簇中,并且通过设定目标函数来驱使算法趋向于目标,且每个组至少包含一个对象,每个对象必须只属于一个组,如K-means聚类、K均值算法

基于层次的方法:是指对于给定的数据集对象,我们通过层次聚类算法获得一个具有层次结构的数据集合子集结合的过程,层次聚类分为两种:自底向上的凝聚法、自顶向下的分裂法

基于密度的方法:基于主要特点: 发现任意形状的聚类 处理噪音 需要密度参数作为终止条件、如DBSCAN 

(DBSCAN聚类方式 一个动态网站:    https://www.naftaliharris.com/blog/visualizi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值