数据聚类方法与应用解析
1. PageRank 与聚类概述
在数据处理与分析中,PageRank 算法和聚类技术是两个重要的概念。以奥巴马的维基百科页面为例,不同的 PageRank 计算方式会得出不同的结果。当考虑所有维基百科页面时,可能会出现从恐龙页面只需两次点击就能到达奥巴马页面的情况,这引发了关于某些不相关元素是否应影响中心性的思考。而当仅考虑人物相关的维基百科链接来计算 PageRank 时,结果会有所不同,一些历史人物被近期的美国总统所取代。这两种 PageRank 版本都有其合理性,相关系数为 0.68,都可作为数据集的潜在特征。
聚类则是根据相似性对数据点进行分组的过程。很多时候,数据来自少量的逻辑“源”或“解释”,聚类有助于揭示这些数据的来源。例如,外星人看到大量人类的身高和体重数据时,可能会发现两个明显的聚类,分别代表男性和女性。
聚类的应用非常广泛,主要包括以下几个方面:
- 假设开发 :当发现数据集中存在不同的聚类时,会促使我们思考这些聚类存在的原因。通过为每个元素分配聚类标签,可以研究同一聚类中的多个代表元素的共性,或比较不同聚类中元素的差异。
- 小数据集建模 :对于包含大量记录和少量特征列的数据集,如 8000 万次出租车行程数据,聚类可以将大数据集划分为多个相似的子集。每个子集都有足够的记录来拟合预测模型,且针对特定子集的模型可能比通用模型更准确。
- 数据缩减 :处理大量记录时,计算和可视化会变得困难。聚类可以将相似的点分组,并以聚类的质心代表整个聚类,这样的最近邻模型更健壮,还能提供自然的置信度度量。
超级会员免费看
订阅专栏 解锁全文
1208

被折叠的 条评论
为什么被折叠?



