这个项目的第二个任务就是数据分析了,也就是我们需要通过写Python,然后对数据进行EDA,试图从中间找到一些规律性的知识,方便后续我们衍生变量时提供思路~
首先,我们的数据集分为Train以及Test两个,我们需要看看两者是否有重复的用户(正常情况下不会有),经过我们的探索,断定确实两者是没有重复的用户。
接下来,我们就可以先从每个字段的字面意思来理解它,从上一节中我们把字段罗列了出来:
字段名称 | 字段描述 |
---|---|
user_id | 用户id |
click_article_id | 点击文章id |
click_timestamp | 点击时间戳 |
click_environment | 点击环境 |
click_deviceGroup | 点击设备组 |
click_os | 点击操作系统 |
click_country | 点击城市 |
click_region | 点击 |