Kaggle电子零售交易之数据挖掘
文章目录
项目链接 : 这是一个项目的传送门哦_.
只是一个没有感情的萌新,不足之处,欢迎指教。
背景
在这个以信息和数字为导向的时代,绝大多数的相互作用以及行为是通过网络的,而之前都是人为控制的。电子商务是一个主要的数字通信和信息时代的应用,商品零售是其中较为显著的一个例子。在电子商务中购买和销售行为被转移到能够推广商品以及接受支付的网络、服务器以及网站上。网络零售店所有者必须能够找到根据消费者年龄、性别、地址、社会状态等因素向他们推荐最为合适的产品。
本文通过Kaggle电子零售网站的真实数据进行数据挖掘,使用不同模型分析了用户的消费行为。
- 首先使用 python 进行数据的信息的提取和分析(简单描述统计、缺失值、异常值处理);
- 其次,从不同角度可视化观察用户消费行为(折线图、饼图、动态可视化);
- 最后,使用了RFM模型、KMeans (机器学习算法), 对用户进行价值提取;
- 获得了合理的方式和信息用于网站管理者优化宣传的效果和对于未来的行为做出正确的决定, 同时基于顾客以往的购买行为能够对每一个顾客做出最为合适的商品推荐。
【数据源】: 这是一个链接哦_ .
数据集来自一个在英国注册的没有实体店的电子零售公司,在2010年12月1日到2011年12月9日期间发生的网络交易数据。
【Note】:
- 本次分析为了保证完整性,故选取一整年的交易数据,即从2010年12月1日到2011年12月1日期间的数据。
- 原数据集以xlsx格式存储,总共有541909条数据,8个字段,为了后续方便,本次转换为了csv格式。
数据字段介绍
Features | Description | Type | Size |
---|---|---|---|
InvoiceNo | 订单号 | String | 25900 |
StockCode | 产品编号 | String | 4070 |
Description | 产品描述 | String | NA |
Quantity | 每一笔交易中购买的产品数量 | integer | NA |
InvoiceDate | 交易的时间和日期 | datetime | NA |
UnitPrice | 产品单价 | float | NA |
CustomerID | 用户ID | String | NA |
Country | 用户所在国家 | String | NA |
分析思路及指标
1. 数据总览 (Data Describe)
- 描述统计分析
2. 数据预处理 (Data Preprocessing)
- 数据类型转换
- 缺失值、异常值处理
3. 指标体系 (Index)
-
整体运营指标
- 目的:了解电子零售商当前的运营状态
- 用户消费趋势分析(按月)
- 月销售数量
- 月销售总额
- 月均销售额
- (按周)
- 周销售数量
- 周销售总额
- 周均销售额
- 效率指标
- 客单价
- 产品件单价
- 连带率
- 退货指标
- 退货金额
- 退货数量
- 退货用户数
-
产品指标
- 目的:了解产品的优劣
- 销量最高的产品
- 销售金额占比最高的产品
- 价值用户喜欢一起购买的产品
-
RFM 模型指标 / Kmeans 模型
- 目的: 挖掘潜在价值用户,指导运营策略的设计与执行
- Recency
- Frequency
- Monetary
-
价值用户行为指标
-目的:了解用户的消费习惯- 用户首次、最近一次消费时间
- 新老客户占比
- 用户购买周期(按订单)
- 用户生命周期 (按第一次 & 最后一次消费)
4. 模型构建 (Bulid Model)
- RFM 用户价值模型
- Kmeans 机器学习模型
5. 模型评估 (Evaluate)
- PCA 降维可视化分析
- Silhouette Coefficient
- Calinski-Harabaz Index
5. 总结 (Conclusion)
致谢(Acknowledge)
Cohort Analysis & Customer Segmentation with RFM.
Cohort Analysis: Beginners Guide to Improving Retention.
RFM analysis for Customer Segmentation.
从电子零售交易数据挖掘价值用户.