电商数据分析项目总结！

最新推荐文章于 2025-02-15 23:38:19 发布

原创

最新推荐文章于 2025-02-15 23:38:19 发布 · 6.5k 阅读

84 ·

CC 4.0 BY-SA版权

本文通过对京东2020年5月25日家电冰箱10%随机抽样订单的分析，探讨订单取消、支付比例、价格分布及地域特征。数据显示，约28.9%的订单被取消，15%的用户未支付，主要消费价位在2K以下。0点和20点的订单特点不同，0点可能存在冲动购物，20点则相对理智。订单主要集中在一线城市和经济发达省份，卡萨帝等品牌占据高端市场。

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习，不错过

Datawhale干货

作者：牧小熊，华中农业大学，Datawhale原创作者

订单数据作为电商数据分析中的基础分析项目，本项目就京东的订单数据进行分析。通过数据分析和可视化深挖数据产生的原因，掌握基础的数据分析能力。

1.关于本项目

1.1数据来源

本次数据来源于京东2020年5月25日大家电-冰箱的订单数据按照10%的随机抽样后进行数据脱敏最后得到的订单数据，共有订单数据大约70K，数据来源于公开网络数据。

公众号（Datawhale）后台回复“202013”获取打包的项目源码和数据

1.2数据所包含信息

订单中的属性将其分成了3类，分别是用户属性、订单属性以及商品属性

2.数据预处理

本项目使用python对数据进行处理使用plotly进行数据可视化

import pandas as pd
import numpy as np
import plotly_express as px
import plotly.offline as of
import plotly as py
import plotly.graph_objs as go

读取提供的数据

df=pd.read_csv('data.csv',sep='\t', encoding="utf-8", dtype=str)

查看数据的缺失值

df.isnull().sum().sort_values(ascending=False)

user_site_city_id 38190
user_site_province_id 38033
check_account_tm 23271

通过观察发现，这3个数据有部分缺失值，其中user_site_city_id 用户所在城市编号，user_site_province_id 用户所在省份的编号，check_account_tm支付时间

这部分数据的缺失是因为用户填写个人资料时跳过的部分，当然这不影响我们整个数据的分析

我们首先是将数据的类型进行转换同时处理缺失值和异常值

值得注意的是，通过观察我们发现冰箱最低的价格是288元，但是数据中发现了很多低于288元的订单数据，我们认为这部分数据不能真实代表冰箱实际的订单数据，可能出现了补差价或者补运费的情况，因此这样

最低0.47元/天解锁文章