在互联网行业中,电子商务领域绝对是数据分析用途最多的地方,各大电商平台都依赖数据分析帮助其挖掘用户订单增长机会。比如某宝的随手买一件,核心思路也就是根据用户的日常浏览内容及停留时间,以及订单的关联度来进行推荐的。
本篇文章,我们来通过一个真实的电商数据集进行分析,在复习前面内容的基础上,也可以感受一下电商数据分析的分析流程。
1、需求说明
最近某个电商网站需要策划一场推广活动,通过发短信的方式,向客户发送广告和优惠信息,吸引他们来购物。但由于预算及短信限制,无法对全量客户发送,需要找出最有可能转化的人群,定向发送推广信息,同时,下单的行为往往也跟时间呈现一定的关联关系,推送时间也需要考虑。
基于以上的需求说明,作为数据分析师,我们就需要根据需求,制定自己的分析计划。那么我们的任务就是:
- 通过数据分析,找到最有可能转化的人群特征(比如年龄、性别、地域等)。
- 通过数据分析,给出最适合发送推广短信的时间。
任务明确之后,就需要考虑我们要完成以上任务,需要哪些数据支撑,开始找数据部门提供相应的数据支持。
通过一顿友(唇)好(枪)协(舌)商(战),最终从数据部门要到如下数据:
- 用户行为表:最近6个月的用户行为数据。也就是下单数据
- VIP数据:用户VIP会员开通数据。
- 用户数据:用户个人信息相关数据。
拿到数据之后,我们就可以大展拳脚了。
2、数据集获取及分析
为了方便我们学习,需要自己模拟一些相关数据,不想模拟的话,可以在公众号联系获取。
拿到数据后,解压后可以看到如下几个文件:
- user_behavior_time_resampled.csv (用户行为数据)
- vip_users.csv (VIP用户数据)
- user_info.csv(用户数据)
我们先来看一下各个表的字段说明:
user_behavior_time_resampled.csv
vip_users.csv
user_info.csv

3、加载数据
从这里开始,我们就开始使用我们前面了解的一些包和库来读取数据了,这里首先是使用pandas来加载数据。
import pandas as pd
df_user_log = pd.read_csv("EComm/user_behavior_time_resampled.csv")
df_vip_user = pd.read_csv("EComm/vip_user.csv")
df_user_info = pd.read_csv("EComm/user_info.csv")
df_user_log
df_vip_user
df_user_info
加载完后,输出如下:



❝
这里,df_user_log表中有一个 time_stamp 和 timestamp 字段,我们需要了解一下这两个字段的意思。

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



