网络分析:基于 Twitter 数据的图处理与遍历
1. 网络分析概述
网络分析并非新鲜事物,但随着社交网络分析的兴起,它变得愈发流行。在网络世界中,图是一种强大的模型,能有效表示各种结构,如网页的超链接结构、互联网的物理结构,以及道路、电信和社交网络等。像 Google、Facebook、Twitter 和 LinkedIn 等大型网站,都运用大规模图处理技术挖掘用户数据。由于定向广告对网站盈利至关重要,那些能有效推断互联网用户兴趣的公司将获得丰厚的经济回报。
我们将使用公开的 Twitter 数据来展示网络分析的原理。具体操作包括应用模式匹配技术(如三角形计数)查找图中的结构,以及使用全图处理算法(如标签传播和 PageRank)梳理图的网络结构。最终,通过这些技术从 Twitter 社区中最具影响力的成员识别出社区的兴趣。为实现这些,我们会使用 Spark 和名为 GraphX 的库,它借助 Spark 分布式计算模型处理超大型图。
在进行大规模处理之前,我们先从图遍历问题开始探索,这里会用到 Clojure 库 Loom。
2. 数据下载与检查
2.1 数据下载
我们使用来自 Twitter 社交网络的关注者数据,该数据是斯坦福大型网络数据集集合的一部分。可以从 https://snap.stanford.edu/data/egonets-Twitter.html 下载 Twitter 数据,需要下载并解压 twitter.ta
超级会员免费看
订阅专栏 解锁全文
45

被折叠的 条评论
为什么被折叠?



