摘要:曼海姆大学研究人员公开了据称是目前最大规模的网络超链接图,涵盖35亿个网页和1280亿个超链接。
近日,曼海姆大学研究人员公开了一个巨型的网络超链接图(Web Data Commons Hyperlink Graph),以便于公众进行网络研究。这个网络图是从CommonCrawl(一个提供网络爬虫数据的非营利性组织) 2012年语料库中提取的,涵盖35亿个网页和1280亿个超链接,很可能是现在最大的公开可用图。
这个图对于进行网络分析以及从事以下研究工作的人员将有很大的帮助:
- 搜索算法,并根据网页之间的超链接进行排名;
- 垃圾邮件检测方法,识别出“欺骗”搜索引擎的网页;
- 图分析算法,可以用超链接图来测试工具的扩展性\和性能;
- 在特定的局部领域的网络科学和链接模式,目的是识别管理这些领域的社会机制。
这些超链接图提供了4个不同级别的聚合:
- 页面级图:每个节点及其所有细节,代表一个单一的web页面,每个弧代表两页之间的一个超链接;
- 子域级别图:通过子域聚合页面图。在图中的每个节点表示一个特定子域(像research.dws.uni-mannheim.de) ,如果分属不同子域间的页面存在至少一个超链接,则两个子域间存在弧;
- 第一级子域图:每个节点都代表一个第一级子域名(如dws.uni-mannheim.de),所有下方的子域聚合到该域;
- Pay级别域图:每个节点代表一个Pay级别域(置于uni-mannheim.de),如果分属不同Pay级别域间的页面存在至少一个超链接,则弧存在。
各级别图的规模如下:
页面图:35.63亿个节点,1287.36亿个弧
子域图:1.01亿个节点,20.43亿个弧
第一级子域图:0.95亿个节点,19.37亿个弧
Pay级别域图:0.43亿个节点,6.23亿个弧
其它公开的超链接图和网络爬虫数据集合:
另外,Laboratory for Web Algorithms和Stanford Large Network Dataset Collection也提供类似的超链接图数据,但是相比WDC Hyperlink Graph,数据规模较小、也较旧。(编译/李新宇 审校/周小璐)
原文链接:WDCHugeWebGraph-128billionhyperlinks-publiclyavailable
第七届中国大数据技术大会(Big Data Technology Conference 2013,BDTC 2013)将于2013年12月5日-6日在北京世纪金源大酒店召开。Spark核心设计者、Databricks创始人兼CEO Ion Stoica,Apache HBase项目管理委员会Michael Stack、百度大数据首席架构师林仕鼎、华为公司诺亚方舟实验室主任杨强、Apache Tez commiter Bikas Saha大数据技术专家领衔,来自腾讯、阿里巴巴、Hortonworks、LinkedIn、小米、Intel等50余位工程师带来近60场干货分享,更有《中国智能交通与大数据技术峰会》专场感受智能交通如何改变生活。