零基础入门推荐系统 - 新闻推荐实战-笔记二

零基础入门推荐系统 - 新闻推荐实战-笔记二-数据分析

进一步思考

点击时间戳进行排序
这里我尝试了输出某一个user_id的所有进行查看。我发现:
①rank对的是每一个user的,就是每行数据的rank对应的是该user看文章的顺序
②rank的数据是倒序的,rank=1并不是user第一篇看的文章,而是最新看的文章。
在这里插入图片描述
trn_click的数据阅览
将训练集用户点击日志和新闻文章信息数据表,以文章id进行了左连接
在这里插入图片描述
新闻文章信息数据表
words_count 字段进一步分析:
count 364047.000000
mean 190.897727
std 59.502766
min 0.000000
25% 159.000000
50% 186.000000
75% 218.000000
max 6690.000000

文章的平均长度为190,文章最短长度为0(此处黑人问好.jpg),75%的文章长度都小于等于218,文章最长的长度为6690。

我对文章长度为0的文章进行输出:
在这里插入图片描述
文章长度为0的共有35篇。(上图仅为部分)

补充

2020.12.22:
train_click_log.csv中用户点击至少有2个文章
testA_click_log.csv中用户点击最少为1,这个可能要单独处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值