简述
- density
体现了数据集的稀疏程度.
d e n s i t y = ∣ I n t e r a c t i o n s ∣ ∣ U s e r s ∣ ∗ ∣ I t e m s ∣ density=\frac{|Interactions|}{|Users|*|Items|} density=∣Users∣∗∣Items∣∣Interactions∣
MovieLens
广泛流行的基准测试数据集. 详见参考 [1].
通过 movielens.org 网站收集到的电影评分数据. 包含 user 对 movie 的评分及时间戳. 含有 user 及 movie 的side-info.
根据 年份和数据集大小的不同, 有具体的多个版本. 其中一个如下.
- ML-1M
1 million ratings from 6000 users on 4000 movies. Released 2/2003. density=4.46%.
Amazon
来自Amazon的用户购买及评分数据. 有类别区分, 如 {Andorid App, Health/Care, …}
|User|=10K, density=0.087%.
RecSys Challenge 2015
见参考[2].
RecSys Challenge 2015.
一家电商网站的点击和购买日志.
- train set
Session ID, Timestamp ,Item ID ,Category ,Price , Quantity (how many of this item were bought) - test set
Session ID,Timestamp,Item ID,Category - Solution file
即本竞赛要提交的预测结果. 有两部分:
- Session ID
- Comma separated list of Item IDs that have been bought in this session
手淘猜你喜欢-天池408
见参考[3].
来自手机淘宝app, 猜你喜欢导购场景下的点击和购买日志.
13个用户特征, 5个商品特征, 4个交叉特征, 一个上下文特征.
淘宝用户行为-天池649
见参考 [5]. 数据为: 用户在一个 session 内的连续交互的商品序列. 用于 top-n 推荐评测, 指标有 nDCG 等.
抽样几行见下.
用户id, item_id, category_id, behavior_type, time_stamp
446694,1185634,4217906,pv,1511876096
446694,5148473,2920476,pv,1511876125
446694,1100988,2903469,pv,1511876164
446694,1739204,2520771,pv,1511876174
446694,503921,3616520,cart,1511932744
446694,67054,3616520,cart,1511932819
446694,1523499,411153,pv,1511966287
446694,2259706,2355072,cart,1512094240
446694,1670246,2465336,cart,1512095104
CIKM Cup 2016
见参考[4].
CIKM Cup 2016 Track 2: Personalized E-Commerce Search Challenge.
数据来自一个电商网站.
数据包括: 浏览日志和搜索日志和商品图,
数据量: 1,235K.
item特征: 价格, 类目.