[Task02] 零基础入门推荐系统 - 新闻推荐

该项目第二任务涉及Python数据分析,对数据集进行EDA,检查Train和Test集用户是否重复,并分析各字段含义,处理空值。数据按时间排序,逐个变量分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这个项目的第二个任务就是数据分析了,也就是我们需要通过写Python,然后对数据进行EDA,试图从中间找到一些规律性的知识,方便后续我们衍生变量时提供思路~

首先,我们的数据集分为Train以及Test两个,我们需要看看两者是否有重复的用户(正常情况下不会有),经过我们的探索,断定确实两者是没有重复的用户。

接下来,我们就可以先从每个字段的字面意思来理解它,从上一节中我们把字段罗列了出来:

字段名称 字段描述
user_id 用户id
click_article_id 点击文章id
click_timestamp 点击时间戳
click_environment 点击环境
click_deviceGroup 点击设备组
click_os 点击操作系统
click_country 点击城市
click_region 点击
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值