24、聚类分析:从基础到大数据应用

聚类分析:从基础到大数据应用

1. 聚类概述

人类自原始时代起就具备将已知世界划分为不同类别的能力。从原始洞穴居民对自然世界中动植物的分类,到现代营销部门对消费者的细分,分类在构建新知识的过程中至关重要。通过将相似的对象聚集在一起,我们能够:
- 用相同的名称提及一个类中的所有项目。
- 通过典型的类类型总结相关特征。
- 自动关联特定的操作或回忆特定的知识。

在处理大数据流时,同样需要这种分类能力,但规模不同。为了发现数据中未知的信号组,我们需要专门的算法,这些算法既能将示例分配到给定的类别中(监督学习方法),也能发现我们之前未意识到的新类别(无监督学习)。

聚类是一种数据驱动的分类方法,当你需要从零开始提供新的见解、缺乏标记数据或想要为数据创建新标签时,它对数据项目的成功非常有帮助。聚类技术是一组无监督分类方法,无需任何关于可能存在的组的先验知识或假设,就可以直接处理数据并创建有意义的类。

聚类技术有几种类型,可以根据以下准则进行区分:
|区分准则|说明|
|—|—|
|示例分配方式|将每个示例分配到一个唯一的组(划分聚类)或多个组(模糊聚类)|
|启发式规则|确定它们用于判断一个示例是否属于某个组的经验法则|
|距离度量|指定它们如何量化观测值之间的差异|

大多数情况下,我们使用划分聚类技术(一个数据点只能属于一个组,组之间不重叠,成员关系明确),其中 K-means 是最常用的方法。此外,还有基于聚合方法和数据密度的其他有用方法。聚合方法根据距离度量将数据分组,而数据密度方法利用组是密集且连续的这一思想,如果在探索一组点的某个部分时发现密度下降,可能意味

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值