精读3:关于电商数据分析,你知道多少

本文介绍了电商数据分析的流程,包括明确问题、分析原因和提出建议,并通过国内及跨境电商行业的实例,如回购率下降和会员送达率不足,展示了如何运用多维度拆解和假设检验方法找出业务问题并提出解决方案。

这是精读系列的第3篇文章

哈喽,大家好,我是可乐,今天是精读《数据分析思维:分析方法和业务知识》的第三篇文章,对应这本书的第345章,主要讲用数据分析解决问题的流程以及两个实战案例:国内和跨境电商行业的业务知识、指标和案例。

前两篇精读如下:
精读1:总说业务,到底业务常用的指标有哪些
精读2:11种数据分析方法,别再说你不会了

用数据分析解决问题

将前一章单独的分析方法结合起来运用。

明确问题


通过观察现象,把问题定义清楚,要明确数据来源和准确性,通常可以从时间、地点和数据来源上进行确认。

其次对业务指标进行充分的理解,包括指标和含义,以及和谁对比的问题。

比如某店铺上半年完成的利润,与年初制定的月平均盈利500万的目标还有很大差距,领导要求找到没有达标的原因。

首先要确认数据的准确性,明确是哪个部门提供的,每个月的数据是什么,数据是否核对清楚无误?

然后理解其中的指标,利润是如何定义的等,和上半年相比出现了差距。

注:

  • 避免主观臆断

分析原因

分析原因要搞清楚两个问题:

  • 哪里出了问题
  • 为什么会出现这个问题

首先分析关键因素,运用多维度拆解分析法,对每个指标进行拆解,如销售=销售收入-销售成本-营业外支出,销售收入还可以拆解为客单价X用户数,至于拆解到什么程度,要根据对业务的理解和实际问题灵活把握。

再用假设检验分析法,找到具体是哪里出了问题。

找到哪里出了问题后,可以进一步深入分析,如可食用相关分析来分析深层次的原因。

提出建议

在提出建议这一步,通常可以使用回归分析、AARRR模型分析的方法。

使用回归分析,是为了计算出某个原因能够对目标造成多大程度的影响,如预测销售收入要达到多少才能实现下半年利润4000万的目标。

关于回归分析,可参考这篇文章:
细说回归分析

接下来是实战部分,讲了12个行业的业务知识、常用指标,以及案例分析,先从电商行业开始

国内电商行业

4种业务模式

  • B2B:企业卖家——企业买家,如阿里巴巴,订单量大
  • B2C:企业卖家——个人买家,如天猫、亚马逊、“XX官方旗舰店”
  • C2C:个人卖家——个人买家,如淘宝
  • O2O:卖家线上——买家线下

电商行业经历了从流量运营到用户运营的升级

业务指标

  • 新老用户数量占比
  • 新老用户金额占比
  • 复购率:复购用户的占比,通常衡量一个较长的时间段,反映用户忠诚度
  • 平均复购周期:用户重复购买的平均时间间隔
  • 回购率:分析短期促销活动对用户吸引力的指标

电商常用指标可分为人与货两大类,分别是用户交易和商品管理指标
用户交易

  • 访客数UV:商品所在页面的独立访问数
  • 加购数:将某款商品假如购物车的用户数
  • 收藏数:收藏某款商品的用户数

购买阶段

  • 成交总额GMV
  • 支付转化率:付款用户数/访客数
  • 折扣率:GMV/吊牌总额

收退货

  • 拒退量:拒收和退货的总量
  • 拒退额:拒收和退货的总金额
  • 实销额:GMV减去拒退额

备货指标

  • SPU数:款号,如iphone 9就是一个SPU
  • SKU数:指某款号的具体货号,具体到颜色、尺寸,如iphone 9 有3个SKU,分别是黑色、白色和红色
  • 备货值:吊牌价 X 库存数

发货售后

  • 售卖比:售罄率,GMV/备货值,用来看商品流转情况,对库存进行优化
  • 动销率:有销量的SKU数/在售SKU数

案例:回购率下降分析

明确问题:发现2019年双十一用户回购率下降,分析原因

对比分析发现不管是用户数还是回购人数较2017、2018年都有增长,但回购率却下降,这是我们前面说的辛普森悖论,原因应该是回购人数的增长没有赶得上基数的增长。

运用多维度拆解分析法,先从R值进行拆解,也就是RFM分析中的那个R值,最后一次购买时间间隔,从R<=365和365<R<=730两个组对比历年的基数、回购数、回购率,发现19年反而比18年的值都高,说明R值不能定位回购率下降的原因。

接着从F值进行拆解,就是购买频次,拆解为F=1和F>1,发现仅购买一次的基数用户回购率下滑较大,造成整体回购率降低,可以从F=1的基数用户出发,进行更深入的分析

把F=1的用户再按照R值分成多组,发现90<R<=180这个组的回购率同比下降最大,是造成F=1用户回购率下降的主要原因,倒推日期,终于找到了原因,2019年“618”大促带来的新用户有大量用户没有留存下来,这些新用户主要是平台的推广页的广告吸引的许多低价尝新的用户。

跨境电商行业

跨境电商是通过跨境物流送达商品、完成交易的国际商业活动。3种业务模式:

  • 平台型:邀请卖家入驻跨境电商平台,如天猫国际
  • 自营型:跨境电商平台自己运用,如小红书、考拉海购
  • 混合型:兼有平台型和自营型,如亚马逊

业务指标

广告方面的业务指标,从漏斗模型上看,有以下指标需要注意:

案例:会员分析

亚马逊店铺会员活动要保证订单两日达,后台数据显示送达率只有90%,低于标准100%,造成活动失败。

明确问题:造成会员送达率低于标准的原因是什么?

分析原因:梳理从买家下单到收货的业务流程,使用对比分析法,分析到底是哪个环节出了问题,通过分析发现,没有及时发货是主要原因。

再从仓库维度拆解,深入分析,发现06和07仓库订单异常数较多,是主要症结。

<think> 我们正在讨论数据分析刷题的流程。根据之的引用,数据分析流程包括问题定义、数据整理、数据清洗、数据分析和结果呈现等步骤。刷题流程可以借鉴这些步骤,但更侧重于练习和掌握技能。 引用[2]提到数据分析流程的第一步是“问题定义”,引用[5]提到“明确目标”,在刷题中同样需要明确题目要求。 引用[1]和引用[3]都涉及数据整理和清洗,这在刷题中对应题目数据的预处理。 引用[1]提到综合分析和相关分析,引用[5]提到建模和评估,这在刷题中对应解题方法的实现和评估。 因此,我们可以将数据分析刷题的流程分为以下步骤: 1. 理解题目(问题定义):仔细阅读题目,明确题目要求,包括输入输出格式、数据范围、时间限制等。 2. 数据预处理(数据清洗和整理):根据题目提供的数据,进行必要的清洗和转换,比如处理缺失值、异常值、数据标准化等。 3. 选择方法(分析/建模):根据题目类型,选择合适的数据分析方法或模型,例如分类、回归、聚类等,并选择合适的算法。 4. 实现与测试(编码和评估):编写代码实现算法,并在测试数据上运行,评估效果。 5. 优化与改进(模型优化):根据测试结果调整参数或更换方法,不断优化,直到达到满意的效果。 6. 结果呈现(报告):将最终结果按照题目要求输出,并整理解题报告(包括思路、方法、结果等)。 在刷题过程中,重点是掌握数据处理的技巧和算法的应用。常用的刷题平台如LeetCode、Kaggle等,都提供了数据分析相关的题目。 另外,引用[1]提到Excel、Python等工具,在刷题中我们通常使用Python(Pandas, NumPy, Scikit-learn等库)进行数据处理和分析。 下面是一个简单的示例,展示一个数据分析题目的处理流程(以Kaggle上的泰坦尼克生存预测为例): </think> 基于数据分析的核心流程和刷题特点,数据分析刷题的规范化流程如下: ### 数据分析刷题标准流程 1. **题目解析与需求定义** 精读题目要求,明确: - 目标变量(需预测的字段) - 评价指标(准确率、F1-score等) - 数据边界(缺失值处理要求、字段约束) 引用[2]强调「问题定义」是流程起点[^2],引用[4]指出需明确分析目标优先级[^4]。 2. **数据预处理** ```python # 典型预处理代码框架 import pandas as pd df = pd.read_csv(&#39;dataset.csv&#39;) df = df.drop_duplicates() # 去重(引用[3]要点1)[^3] df = df.dropna(subset=[&#39;key_column&#39;]) # 关键字段缺失处理 df[&#39;category&#39;] = df[&#39;category&#39;].astype(&#39;category&#39;) # 类型转换 ``` 3. **特征工程** - 数值型:标准化(`sklearn.preprocessing.StandardScaler`) - 分类型:独热编码(`pd.get_dummies`) - 文本型:TF-IDF向量化 引用[5]强调特征工程需符合「奥卡姆原则」[^5]。 4. **模型选择与训练** ```python from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) model = RandomForestClassifier(n_estimators=100) model.fit(X_train, y_train) # 引用[1]涉及分类算法[^1] ``` 5. **模型评估与优化** - 交叉验证(引用[5]要点)[^5] - 混淆矩阵分析 - 特征重要性排序 ```python print(f"测试集准确率: {model.score(X_test, y_test):.2%}") ``` 6. **结果呈现** 按题目要求输出预测文件(如`submission.csv`),包含: ```csv ID,Prediction 001,0 002,1 ... ``` ### 刷题效率提升要点 1. **模块化代码** 封装预处理/建模函数实现快速复用 2. **错题分析** 建立错误案例库(如特定数据分布下的模型失效场景) 3. **工具链配置** - Jupyter Notebook分段执行(引用[1]工具建议)[^1] - 自动化超参调优(Optuna库) 4. **业务映射训练** 针对电商/金融等高频领域专项训练(引用[4]行业知识要求)[^4] > 关键提示:刷题需平衡 **技术深度**(模型原理)与 **工程速度**(pandas熟练度),建议70%时间练核心库操作(Pandas/Scikit-learn),30%时间研究优化方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

进击的可乐!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值