提示:本文章数据(mask_data_clean)下载链接:https://pan.baidu.com/s/1ZSHUZyBxpgo2SpdKxfoc6Q
提取码:5dgz
【Python数据分析基本流程】1.明确目标 2.数据处理 3.数据分析 4.数据展现 5.报告撰写
前言
数据分析基本流程: 第一步:分组聚合,统计数据 第二步:折线分析,确定趋势 第三步:原因剖析,聚焦问题 第四步:深入洞察,提出对策
项目目标:分析口罩厂商亏损原因,提出解决对策
分析重点:销售额,订单量,单价,各省订单量随着时间变化的趋势及其变化原因;通过分组聚合对每一组数据进行描述性统计分析,然后利用折线图进行变化趋势的分析
一、分组聚合,统计数据
分析的影响因素是销售额、订单量、单价、各省订单量,而且是以一个月为颗粒度,进行时间维度上的变化趋势和原因分析。
import pandas as pd
mask_data_clean = pd.read_csv('./mask_data_clean.csv', encoding = 'utf-8')
mask_data_clean.head()
分别查看1月到6月以来的销售额,可以根据月份对数据mask_data_clean进行分组
对比每个月销售额的上升或下降,查看其每月变化
sales_income = mask_data_clean.groupby(['月份'])['销售额'].sum()
sales_income
对所有订单记录数据的各方面影响因素做变化趋势分析时,有两个要点:
1.根据什么对数据进行分组;
2.选择什么代表性的统计方法,对影响因素进行聚合计算。
获取各月总订单量
order_number = mask_data_clean.groupby('月份')['订单量'].sum()
order_number
获取每月平均单价,存储在变量 month_price 中
month_price = mask_data_clean.groupby('月份')['单价'].mean()
订单量数据进行分组聚合操作,得到各月各省总订单量
获取各月各省总订单量
month_order2 = mask_data_clean.groupby(['月份','省'])['单价'].sum().unstack()
查看数据
month_order2 # 某个月份不同省份总订单量数量
获取各月各省总订单量
month_order1 = mask_data_clean.groupby(['省', '月份'])['订单量'].sum().unstack()
二、折线分析,确定趋势
import matplotlib.pyplot as plt # 导入matplotlib库的pyplot模块
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
sales_income.plot(kind = 'line', figsize = (6, 6), title = '各月总销售额趋势图')
# 直接使用前面的Series对象,以月份为横坐标,以单位数值为纵坐标,总销售额为数据点的折线图
# 画出各月总订单量的折线图
order_number
order_number.plot(kind = 'line' , figsize = (6, 6), title = '各月总订单量趋势图')
month_price.plot(kind = 'line', figsize = (6,6), title = '各月平均单价趋势图')
# 根据month_order1_df绘制多条折线图,标题为'各月各省总订单量趋势图'
# 各月各省总订单量趋势图,它以不同颜色线条表示不同月份,以省份为横坐标,以数值单位为纵坐标,以订单量数值为数据点形成的折线图。
month_order1.plot(kind = 'line', figsize = (7,7), title = '各月各省总订单量趋势图')
观察折线图,有三个要点,一是整体的走势,二是走势的规律性,三是走势的波动。
1.通过折线图的线条倾斜程度,看出走势波动的剧烈程度;
2.各月的总销售额、总订单量、平均单价,以及各省在各月的总订单量,变化趋势有很大的相似性;
(1)在1月到3月的折线是随着时间增长而增加,整体呈增加趋势,其中2月到3月增长快速;3月之后整体呈下降趋势,3月到4月出现了“急跌”;
(2)目前的折线中未出现多个类似形状的起伏波动,未体现出任何规律性;
(3)图中只有一处波动起伏,在这个起伏的最高点,对应3月的数据,此处为最大值;
完全一致的变化趋势说明,此处总销售额的下降是由于订单量、单价双双下滑带来的,而非某一因素单方面的影响。
3.总结:
(1)数据的走势只是一个结果度量,不代表原因本身,也完全不能代表未来的变化趋势,不了解原因只看结果就作评价,很容易犯错。
(2)本质上,趋势是由背后的原因推动的。看趋势,更得看背后的原因,而不是单纯地只看结果走势想当然。
三、原因剖析,聚焦问题(聚焦最值——内外因分析——作证解释)
(1)依据折线图的特征进行原因剖析,首先结合对最值的分析来聚焦问题,重点关注这个值,以特殊性作为突破口;
(2)根据订单量、单价的变化,我们可以知道,3月之前,工厂的口罩需求量和价格都增长猛烈,3月之后却又出现大幅下降;
(3)两三个月内迅速改变口罩的供需关系,应该是属于社会性问题的外部冲击。
分析步骤一个不少,结合数据逻辑和业务逻辑所作的验证、分析、推论都是合情合理,数据分析就是要能够发掘和解释其背后的逻辑。
四、深入洞察,提出对策
问题根源,其实还是一个供需关系,如果口罩厂商在供需矛盾中不占优势,想要继续维持原来高价格高销量的情况几乎是不可能。
总结
整个数据分析过程就是根据分析目的,用适当的分析方法及工具,对数据进行处理和分析,提取有价值的信息,其目的是总结出所研究对象的内在规律。
数据分析能够帮助管理者进行判断和决策,以便制定适当的策略与采取相应的行动。因此掌握数据分析能力对于我们的工作会有很多的帮助。
以上内容为数据分析基本流程及思路,切记一切以目标为导向,采用合适方法,选择合理依据,兼顾业务逻辑的理解,最终制定相应决策,没有数据的分析皆是空谈。文章内容为日常课程学习记录与思考笔记。
2022年5月10日
青海·西宁