38、聚类分析:原理、方法与应用

聚类分析原理与应用详解

聚类分析:原理、方法与应用

1. PageRank 与聚类的引入

在网络数据中,PageRank 是衡量节点重要性的一种方法。以奥巴马的维基百科页面为例,其 PageRank 图在不同条件下会有不同呈现。如果考虑所有维基百科页面的链接(PR1),从恐龙页面只需两次点击就能到达奥巴马页面,这引发了关于已灭绝生物是否应影响总统中心性的思考。而当仅考虑人物之间的链接来计算 PageRank(PR2)时,与奥巴马相关的重要人物群体发生了变化,像耶稣、林奈和亚里士多德被三位近期美国总统所取代。这两种 PageRank 版本都能合理地体现中心性,且具有一定的相关性(0.68),都可作为数据集的潜在特征。

2. 聚类的概念与应用

聚类是根据相似性对数据点进行分组的问题。许多数据往往来自少数逻辑上的“来源”或“解释”,聚类有助于揭示这些数据的起源。例如,外星人若看到大量人类的身高和体重数据,可能会发现两个明显的聚类,分别对应男性和女性。

聚类在数据分析中有多种重要应用:
- 假设开发 :当发现数据集中存在不同的聚类时,会促使我们思考这些聚类存在的原因。为每个元素分配聚类标签后,可研究同一聚类中的多个代表,找出它们的共性,或对比不同聚类中的元素,确定它们的差异。
- 小数据集建模 :许多数据集的行数(n)远多于特征列数(m),如包含 8000 万次行程且每次行程记录 10 个字段的出租车数据。聚类可将大型数据集划分为多个相似的子集,每个子集都有足够的数据来拟合预测模型,且针对特定子集的模型可能比通用模型更准确。进行预测时,先通过最近邻搜索确定查询项所属的聚类,再使用该聚类的模型进

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值