进一步思考
点击时间戳进行排序
这里我尝试了输出某一个user_id的所有进行查看。我发现:
①rank对的是每一个user的,就是每行数据的rank对应的是该user看文章的顺序
②rank的数据是倒序的,rank=1并不是user第一篇看的文章,而是最新看的文章。
trn_click的数据阅览
将训练集用户点击日志和新闻文章信息数据表,以文章id进行了左连接
新闻文章信息数据表
对 words_count 字段进一步分析:
count 364047.000000
mean 190.897727
std 59.502766
min 0.000000
25% 159.000000
50% 186.000000
75% 218.000000
max 6690.000000
文章的平均长度为190,文章最短长度为0(此处黑人问好.jpg),75%的文章长度都小于等于218,文章最长的长度为6690。
我对文章长度为0的文章进行输出:
文章长度为0的共有35篇。(上图仅为部分)
补充
2020.12.22:
train_click_log.csv中用户点击至少有2个文章
testA_click_log.csv中用户点击最少为1,这个可能要单独处理