av81847305
数据集:https://www.kaggle.com/lakshmi25npathi/online-retail-dataset
为了不花钱买 强行从kaggle上对比着名字和大小找到了这份数据
就是要等待它以20kb/s左右的速度下载
发现我kaggle的账号还是之前上挖掘课的时候注册的dm+学号 且改不了……
字段:
InvoiceNo:订单编号,每笔交易有6个整数,退货订单编号以字母C开头
StockCode:产品编号,由5个整数组成
Description:产品描述
Quantity:产品数量,有负号的表示退货
InvoiceDate:订单日期和时间
UnitPrice:单价(英镑),单位产品的价格
CustomerID:客户编号,由5位数字组成
Country:每个客户所在国家/地区的名称
目标:
建立用户分类RFM模型,对比分析不同用户群体在时间、地区等维度下的交易量和交易金额指标,并根据分析结果提出优化建议
R:最近一次消费时间(最近一次消费到参考时间的时间长度)
F:消费的频次(单位时间内消费了多少次)
M:消费的金额(单位时间内总消费金额)
整理数据:
下载的数据为xlsx格式且文件中有两个表单,所以需要合并成一个csv格式来处理
参考链接:
电商平台零售交易数据清洗与RFM模型构建

本文介绍了一次电商平台零售交易数据分析案例,包括数据集来源、字段解释及目标。通过VBA将Excel表格转换为CSV,然后使用命令行合并CSV文件,接着进行数据清洗,处理缺失值,统一数据类型,修正时间字段格式错误,以及删除重复行。最终目标是建立RFM模型,分析用户交易行为。
最低0.47元/天 解锁文章
1994





