[Task02] 零基础入门推荐系统 - 新闻推荐

最新推荐文章于 2022-12-11 18:54:33 发布

Pysamlam

最新推荐文章于 2022-12-11 18:54:33 发布

阅读量233

点赞数 1

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/Pysamlam/article/details/110258597

该项目第二任务涉及Python数据分析，对数据集进行EDA，检查Train和Test集用户是否重复，并分析各字段含义，处理空值。数据按时间排序，逐个变量分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这个项目的第二个任务就是数据分析了，也就是我们需要通过写Python，然后对数据进行EDA，试图从中间找到一些规律性的知识，方便后续我们衍生变量时提供思路～

首先，我们的数据集分为Train以及Test两个，我们需要看看两者是否有重复的用户（正常情况下不会有），经过我们的探索，断定确实两者是没有重复的用户。

接下来，我们就可以先从每个字段的字面意思来理解它，从上一节中我们把字段罗列了出来：

字段名称	字段描述
user_id	用户id
click_article_id	点击文章id
click_timestamp	点击时间戳
click_environment	点击环境
click_deviceGroup	点击设备组
click_os	点击操作系统
click_country	点击城市
click_regio

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Pysamlam

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

关于天池赛中零基础入门推荐系统 - 新闻推荐Task02数据分析

weixin_43796337的博客

11-27

702

文章目录前言一、关于数据分析数据分析的目的：数据分析的作用：二、实现步骤1.引入库2.读取数据：3.数据预处理：4.数据浏览：4.1用户点击日志文件_训练集4.2测试集用户点击日志4.3新闻文章信息数据表4.4新闻文章embedding向量表示5.数据分析：5.1用户重复点击5.2用户点击环境变化分析5.3用户点击新闻数量的分布5.4新闻点击次数分析5.5两篇新闻连续出现的次数总结前言经过上一篇依据Datawhale的针对天池赛中零基础入门推荐系统 - 新闻推荐Task01的文章，接下来本文将对此次.

sweetshark的博客

11-27

246

参与评论您还未登录，请先登录后发表或查看评论

零基础入门推荐系统 - 新闻推荐-数据集

03-19

【Datawhale组队学习】零基础入门推荐系统 - 新闻推荐【Task 02】

weixin_40535594的博客

11-27

967

Task 02: 数据分析目标：当特征工程和模型调参已经很难继续提高分数时，从新的角度出发重新去分析数据，力求找到提分的灵感。数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据，具体的文件中的每个字段表示什么实际含义，以及数据集中特征之间的相关性，在推荐场景下主要就是分析用户本身的基本属性、文章基本属性、以及用户和文章交互的一些分布，这些都有利于后面的召回策略的选择，以及特征工程。步骤： 1、读取数据：分别读取训练集点击记录数据train_click_log.csv、文章数据a

零基础入门推荐系统 - 新闻推荐实战-笔记四

weixin_46303299的博客

12-03

331

2020-11-26

weixin_43868001的博客

11-26

222

零基础入门推荐系统（新闻推荐）

qq_41358220的博客

11-24

4042

阿里天池-零基础入门NLP - 新闻文本分类

07-04

在这个阿里天池提供的零基础入门教程中，我们将深入探讨如何利用NLP技术来实现这一目标。这个项目可能涵盖了从数据预处理、模型选择到模型训练和评估的完整流程。首先，我们要理解NLP的基础概念。NLP是计算机科学...

weixin_43796337的博客

11-25

787

零基础入门推荐系统-新闻推荐-[赛题理解+Baseline]

qq_46576562的博客

11-25

2284

recoNews:datawhale零基础入门推荐系统-新闻推荐

03-11

新闻快讯 datawhale零基础入门推荐系统-新闻推荐

tianchi-news-recommendation:零基础入门推荐系统 - 新闻推荐 Top2

05-26

03-11

新闻推荐系统

05-13

特征工程--理解

m0_49978528的博客

12-03

630

构造特征的思路是这样，我们知道每个用户的点击文章是与其历史点击的文章信息是有很大关联的，比如同一个主题，相似等等。所以特征构造这块很重要的一系列特征是要结合用户的历史点击文章信息。我们已经得到了每个用户及点击候选文章的两列的一个数据集，而我们的目的是要预测最后一次点击的文章，比较自然的一个思路就是和其最后几次点击的文章产生关系，这样既考虑了其历史点击文章信息，又得离最后一次点击较近，因为新闻很大的一个特点就是注重时效性。往往用户的最后一次点击会和其最后几次点击有很大的关联。所以我们就可以

sweetshark的博客

11-25

308

零基础入门推荐系统 - 新闻推荐（一）

weixin_45034418的博客

11-25

2662

零基础入门推荐系统 - 新闻推荐实战-笔记五

weixin_46303299的博客

12-06

618

【打卡】零基础入门推荐系统-新闻推荐

adurey的博客

12-11

1098

赛题以预测用户未来点击新闻文章为任务，数据集报名后可见并可下载，该数据来自某新闻APP平台的用户交互数据，包括30万用户，近300万次点击，共36万多篇不同的新闻文章，同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性，将会从中抽取20万用户的点击日志数据作为训练集，5万用户的点击日志数据作为测试集A，5万用户的点击日志数据作为测试集B。可见节省了很多内存。我们把它存储下来以便以后使用，这里使用hdf5存储。由于数据量比较大，读取占用内存和时间都比较多，考虑对其进行优化。