数据解释:sex>性别,smoker>是否抽烟,day>天,time>时间,size>就餐人数,total_size>餐费,tip>小费
1.加载包
import numpy as np
import pandas as pd
2.加载数据
df = pd.read_excel('/mnt/workspace/canting.xlsx')
df.head(5)
3.将餐费和小费加起来,并单独创建一列
df['total_sum'] = df['total_size'] + df['tip']
df.head(5)
4.查看数据的特征
df.describe(include='all')
5.统计不同时间,不同人数的订单数
df['time'].value_counts()
df['time'].value_counts(normalize=True)# 占比
df['size'].value_counts()
df['size'].value_counts().sort_index()# 按照索引排序
df['size'].value_counts(normalize=True).sort_index()
6.# 求不同日期消费金额数
df.groupby('day')[['size', 'total_sum']].agg(np.sum)