UNIQLO销售数据表的主要字段:
store_id:门店随机编号id,无实际意义
city:门店所在城市
channel:销售渠道:线上&线下
gender_group:客户性别:F&M
age_group:客户年龄段
wkd_ind:购买时间:周末&周中
product:产品类别
customer:客户数量
revenue:销售金额
order:订单数量(一个客户可能多次购买)
quant:购买的产品数量
unit_cost:产品的成本(包括制造和营销成本)
要分析的业务问题:
Q1:整体销售情况随时间的变化是怎么变化的?
Q2:不同产品的销售情况是怎么样的?客户更加偏爱哪一种购买方式?
Q3:销售额和产品成本之间的关系
打开python敲代码
首先导入相关的库和数据
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
get_ipython().run_line_magic('matplotlib', 'inline')
#解决中文和负号不正常显示的问题
plt.rcParams['font.sans-serif']='SimHei'
plt.rcParams['axes.unicode_minus']=False
#导入数据集
sale=pd.read_csv(r"UNIQLO.csv")
数据初步了解和预处理
sale.info()
#这里显示没有缺失值
#但是查看数据发现,gender_group和age_group中存在Unknow的结果
#查看前5行数据
sale.head()
sale.describe()
发现revenue存在负值,不符合实际情况,销售金额应该大于0。
#对小于等于0的revenue进行计数
sale1=sale[sale['revenue']<=0]
sale1.revenue.value_counts()
#销售金额为负数和0的记录较少,进行直接删除
sale