推荐系统数据集

简述

  • density
    体现了数据集的稀疏程度.
    d e n s i t y = ∣ I n t e r a c t i o n s ∣ ∣ U s e r s ∣ ∗ ∣ I t e m s ∣ density=\frac{|Interactions|}{|Users|*|Items|} density=UsersItemsInteractions

MovieLens

广泛流行的基准测试数据集. 详见参考 [1].
通过 movielens.org 网站收集到的电影评分数据. 包含 user 对 movie 的评分及时间戳. 含有 user 及 movie 的side-info.
根据 年份和数据集大小的不同, 有具体的多个版本. 其中一个如下.

  • ML-1M
    1 million ratings from 6000 users on 4000 movies. Released 2/2003. density=4.46%.

Amazon

来自Amazon的用户购买及评分数据. 有类别区分, 如 {Andorid App, Health/Care, …}
|User|=10K, density=0.087%.

RecSys Challenge 2015

见参考[2].
RecSys Challenge 2015.
一家电商网站的点击和购买日志.

  • train set
    Session ID, Timestamp ,Item ID ,Category ,Price , Quantity (how many of this item were bought)
  • test set
    Session ID,Timestamp,Item ID,Category
  • Solution file
    即本竞赛要提交的预测结果. 有两部分:
  1. Session ID
  2. Comma separated list of Item IDs that have been bought in this session

手淘猜你喜欢-天池408

见参考[3].
来自手机淘宝app, 猜你喜欢导购场景下的点击和购买日志.
13个用户特征, 5个商品特征, 4个交叉特征, 一个上下文特征.

淘宝用户行为-天池649

见参考 [5]. 数据为: 用户在一个 session 内的连续交互的商品序列. 用于 top-n 推荐评测, 指标有 nDCG 等.
抽样几行见下.

用户id, item_id, category_id, behavior_type, time_stamp
446694,1185634,4217906,pv,1511876096
446694,5148473,2920476,pv,1511876125
446694,1100988,2903469,pv,1511876164
446694,1739204,2520771,pv,1511876174
446694,503921,3616520,cart,1511932744
446694,67054,3616520,cart,1511932819
446694,1523499,411153,pv,1511966287
446694,2259706,2355072,cart,1512094240
446694,1670246,2465336,cart,1512095104

CIKM Cup 2016

见参考[4].
CIKM Cup 2016 Track 2: Personalized E-Commerce Search Challenge.
数据来自一个电商网站.
数据包括: 浏览日志和搜索日志和商品图,
数据量: 1,235K.
item特征: 价格, 类目.

参考

  1. MovieLens
  2. RecSys Challenge 2015
  3. 手淘-猜你喜欢, 天池-408
  4. CIKM Cup 2016
  5. 淘宝用户购物行为数据集
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值