一.分析背景及目的
本文是一次探索性分析,通过对所有常规指标进行分析,来寻找业务上优化点
二、理解数据
1.数据来源:
数据集-阿里云天池tianchi.aliyun.com
其中包含2个csv数据,表1购买商品和表2婴儿信息
2.列名含义:
三.数据清洗
1.选择子集
auction_id(购买行为编号) 和 property(商品属性)在后续分析中不会使用,故将这两列隐藏。(好习惯是永远不删除数据,不需要的数据隐藏起来)
2.列名重命名
将列名翻译为中文
3.删除重复值
未发现重复值
4.缺失值处理
经过筛选未发现缺失值,操作参考Excel数据处理(缺失值/重复值/异常值/拆分) - 知乎 (zhihu.com)
5.一致化处理
将日期修改成yyyy/m/d的格式,参考数据分析学习第(3)篇“如何使用Excel分析婴儿用品销量情况?” - 知乎 (zhihu.com)
将性别列中值为0、1、2的分别修改为女、男、不详,参考数据分析学习第(3)篇“如何使用Excel分析婴儿用品销量情况?” - 知乎 (zhihu.com)
6.数据排序
对购买数量降序排序,发现购买数量最大值为10000
对购买日期排序,发现交易记录的时间范围是2012年7月2日-2015年2月5日