01 内容提要
本周我们利用python的matplotlib,针对性地练习数据可视化技能。
我们拿到一家公司的销售记录,共有1500条销售数据,现在我们对这张销售记录进行可视化分析吧,这是数据分析师的必经之路哦。
内容提要:
条形图:各公司交易额
多图:各公司交易额、订单数
饼图:各公司交易额占比TOP10总额
散点图:各公司订单数-交易额分布
直方图:单笔订单交易额分布情况
那么我们开始吧!
02 数据处理
首先使用pd.read_excel读取数据,定义该数据表名为df,数据结构如下,这组数据记录了某公司2014年的交易情况:
account number: 账号
name: 公司名字,与账号有一一对应关系
sku: 商品货号
quantity: 购货量
unit price: 单位价格
ext price: 总价 = 购货量*单位价格
date: 日期
通过df.info()查看各字段总数,可以看到共有1500条数据。
数据清洗
#查看数据时发现,购货量有负数,将这些记录筛选出来,根据实际情况决定是否归为异常数据
df[df.quantity<0]
#由于不了解实际情况,目前暂时认为购货量负数为正常值