开放数据集合分享

本文推荐了由斯坦福大学SNAP实验室提供的多种数据集合,包括社交网络、社区网络、通信网络、引用网络、协同网络等,以及来自搜狗实验室的TB级互联网语料库、ClueWeb09 WebGraph数据集、Netflix电影访问库等,详细介绍了它们的应用场景与价值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

巧妇难为无米之炊,如果没有数据,大数据Hadoop系统再大也无意义了。

给大家推荐几个数据集合
1.【Stanford Dataset】来源于美国斯坦福大学SNAP实验室,数据子集合涉及社交网络,Ground-Truth社区网络,通信网络,引用网络,协同网络,Web图挖掘等16个大类,138个小类,总大小达45.9G。下载地址:http://t.cn/zjdJhPf
2.【Sogou Labs】搜狗实验室语料库 访问地址: http://www.sogou.com/labs/resources.html
TB级别互联网语料库,可以用于全文检索的研究。链接关系库,可以用于pagerank计算。互联网图片库,可以用于图片数据计算。全网新闻数据,分类算法研究.
3.【ClueWeb09 语料库】  Web Graph 400G 的数据。是做PageRank 的好材料了。http://t.cn/zTFM4uQ
4.【netflix 电影访问库】 可以用来计算推荐算法

当然这些数据其实都是死数据,如果没有海量用户来访问请求,价值依然无法发挥出来,大数据需要依靠闭环反馈来放大,这大数据也同样意味需要大系统,大用户来支持。不过研究研究也是乐趣,总比没有强吧。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值