目录
新闻推荐数据集介绍
本篇博客介绍的是微软刚刚开源的数据集MIND,关于MIND的介绍可以看这
个:微软关于MIND数据集的介绍
MIND数据集简介
MIND即MIcrosoft News Dataset的简写,MIND数据集是用来做新闻推荐研究,MIND里的数据来自Microsoft News用户的行为日志。
MIND的数据集里包含了1,000,000的用户以及这些用户与160,000的文章的交互行为。
MIND数据集的构造
MIND数据集的构造:在2019年十月12号到11月22号这段时间内随机抽取1,000,000的用户的数据(被选择的用户至在这段时间内至少要点击过五篇新闻),用户的ID已经被编码为uID。Microsoft收集了这段时间内用户的行为日志,这个就形成了impression logs。一个impression logs记录的是在特定时间用户访问网站主页时,用户是否点击了展示给用户的文章。MIND数据集里还加入了用户在impression logs之前的点击历史ClickHist。
MIND数据集里的一个标签样本形式
一个样本点的形式如下:
[uID; t;ClickHist; ImpLog]
uID是用户ID
t是时间点
ClickHist是用户的点击历史

本文详细介绍了微软发布的MIND数据集,一个用于新闻推荐研究的大规模数据集,包含百万用户与160,000篇文章的交互。数据集包括用户ID、时间戳、点击历史和交互日志,以及丰富的新闻元数据。微软通过对比指出,MIND的数据量、英文特性及详细新闻信息使其成为新闻推荐算法研究的理想选择。"
115046896,7730824,C语言中使用uthash实现哈希操作,"['C语言开发', '数据结构', '哈希表']
最低0.47元/天 解锁文章
2002





