笔者之前主要是做增长方向的,平时工作中主要基于问题做数据分析,大部分时候都是怎么快怎么来。 很少有各种工具,各种分析方法全来一遍的,所以本次借分析“淘宝用户行为数据集”为案例,梳理一下自己的数据分析技能。
本文以“淘宝用户行为数据集”的分析全过程为例,展示数据分析的全过程
——使用工具:MySQL,Excel,Navicat,PowerBI
——数据来源:阿里天池实验室-淘宝用户行为数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1
——分析类型:描述分析,诊断分析
——分析方法:漏斗分析,用户路径分析,RFM用户价值分析,活跃/存留分析,帕累托分析,假设验证分析。
(目录如下)
1.分析流程和方法
1.1数据分析类型
当没有清晰的数据看板时我们需要先清洗杂乱的数据,基于分析模型做可视化,搭建描述性的数据看板。
在没有很明确问题或问题很多很复杂的情况下,直接看杂乱的源数据不仅效率很低,也很难得到有价值的信息。
然后基于描述性的数据挖掘问题,提出假设做优化,或者基于用户特征数据进行预测分析找规律,基于规律设计策略。简单来说:
——描述性分析就是:“画地图”
——诊断性分析就是:“找问题”
——预测性分析就是 :“找规律”
1.2数据分析的两个典型场景
在数据分析中有两个典型的场景:
一种是有数据,没有问题:需要先整体分析数据,然后再根据初步的描述分析,挖掘问题做诊断性分析,提出假设,设计策略解决问题。
另一种是已经发现了问题,或者已经有了假设,这种做数据分析更偏向于验证假设。
2.淘宝用户行为分析
本次是对“淘宝用户行为数据集”进行分析,在分析之前我们并不知道有什么问题,所以需要先进行描述性分析,分析数据挖掘问题。
2.1解读元数据
我们首先来看下这个数据集的元数据:
数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括四种:点击商品详情页、购买商品、将商品放入购物车、收藏商品)。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。 本数据集包含:用户数量987994;商品数量4162024;商品类目数量9439;所有行为数量100150807
2.2选择分析方法
根据以上数据字段我们可以拿用户行为为主轴从纵深方向提出一些问题,然后再从数据中找答案
纵向:
——这个数据集中用户的日活跃和周活跃时间有什么规律吗?
——在当日活跃的用户次日,三日,四日……还有多少活跃?
深向:
——用户从浏览到购买的整体转化率怎么样?
——用户从浏览到购买的路径是怎么样子的?
——平台主要会给用户推送什么商品?
——用户喜欢什么类目?喜欢什么商品?
——怎么判断哪些是高价值用户 ?
下面是叮当整理的常用分析方法:
我们可以给前面的问题匹配一下分析方法,便于后面的分析:
2.3数据清洗:
为了便于后面的数据分析,在分析之前我们需要先对做一下清洗
2.3.1数据预处理:
看元数据(字段解释,数据来源,数据类型,数据量……)初步发现问题为之后的处理做准备。
数据导入:由于整体数据集有100W+条数据,导入太慢,本次仅导入10W条分析 添加列名:数据导入时默认使用第一行数据作为列名,由于本数据集没有列名,需要添加
2.3.2缺失值清洗:
确定缺失值范围,去除不需要字段,填充缺失内容
2.3.3格式内容清洗:
根据元数据格式和后续分析需要的格式对数据进行处理
<