
数据分析背景:
为了合理的投入人力物力,创造更大的销售利润,销售行业在策划制定并实施促销活动之前,要对已有的销售数据合理分析,有的放矢的投放广告资源,制定优惠政策。本次的分析数据来自于Kaggle提供的某电商黑色星期五的销售记录,将围绕产品和用户两大方面展开叙述,为电商平台制定策略提供分析及建议。
数据来源链接-Black Friday
一.提出问题:
1、整体的消费情况
2、用户分析(探究最优价值的用户类型)
3、产品分析(探究最优价值的产品)
4、细化分析
二.数据理解:

数据预览:
原始数据中共有12个字段,每个字段共537578行,字段解释如下:
User_ID: 用户ID
Product_ID: 产品ID
Gender: 性别
Age: 年龄
Occupation: 职业
City_Category: 城市(A,B,C)
Stay_In_Current_City_Years: 居住时长
Marital_Status: 婚姻状况
Product_Category_1 产品类别1
Product_Category_2 产品类别2
Product_Category_3 产品类别3
Purchase: 金额(美元)
三.数据清洗:
- 数据导入
将EXCEL文件通过Navicat导入mysql数据库。因为数据量较为庞大,建议转为CSV文件后导入。
- 选择子集
为方便理解,这里将列名改为中文,并筛选除本次使用的数据集。并且为了保持原始数据库,减少内存消耗,我们通过建立一个视图来实现上述对表的修改。
CREATE VIEW blackfriday_COPY AS
SELECT
CONCAT(用户ID,"_",产品ID) AS "识别项",
User_ID as '用户ID',
Product_ID as '产品ID',
Gender as 性别,Age as '年龄',
occupation as '职业',
City_Category as '城市类别',
Stay_In_Current_City_Years as '居住时长',
Marital_Status as '婚姻状态',
Product_Category_1 as '产品类别1',
Product_Category_2 as '产品类别2',
Product_Category_3 as '产品类别3',
Purchase as 金额
FROM blackfriday
- 检测并删除重复数据
SQL语句查询后未发现重复数据,数据很干净。
SELECT count(*) FROM blackfriday_copy
GROUP BY 识别项
HAVING count(*)>1
- 缺失值处理
产品类别字段有缺失,使用0填充,方便后续操作。
UPDATE bl