http://blog.sina.com.cn/s/blog_48e0ae280100h58x.html
推荐引擎测试数据汇总
1.Movielens 电影评分数据
基本数据描述:包括以下三个数据集:
a.943个用户对1682个电影的10万条评分
b.6040个用户对3900个电影的1百万条评分
c.71567个用户对10681个电影的1千万条评分
http://www.grouplens.org/
2.Jester 笑话评分数据
基本数据描述:该数据集包含了1999年4月到2003年5月之间,来自73,421个用户对100个笑话的4,100,000条评分。评分尺度从-10到+10。
http://www.ieor.berkeley.edu/~goldberg/jester-data/
3.Book-Crossing 书籍评分数据
基本数据描述:包含了278,858个用户对271,379本书籍的1,149,780条评分。该数据集由Cai-Nicolas Ziegler 在2004年8-9月用4周的时间从 Book-Crossing 社区用网络爬出。
http://www.informatik.uni-freiburg.de/~cziegler/BX/
4.网上约会评分数据
基本数据描述:来自libimseti.cz约会网站的数据,包含了截至2006年4月4日的135,359个用户对168,791个约会对象档案的17,359,346匿名评分数据。
http://www.ksi.ms.mff.cuni.cz/~petricek/data/
二、用户行为(无评分)数据
美国在线搜索查询数据
基本数据描述: 包含65万用户在3个月内2000万的搜索查询数据。该数据结构按照匿名用户ID来索引。
http://www.gregsadetsky.com/aol-data/
北大光华管理学院 苏萌 教授
转载请注明出处: http://www.baifendian.com/forum/viewthread.php?tid=51