
一、数据来源
本节选用的是Python的第三方库seaborn自带的数据集,该小费数据集为餐饮行业收集的数据,其中total_bill为消费总金额、tip为小费金额、sex为顾客性别、smoker为顾客是否吸烟、day为消费的星期、time为聚餐的时间段、size为聚餐人数。
import numpy as np
from pandas import Series,DataFrame
import pandas as pd
import seaborn as sns #导入seaborn库
tips=sns.load_dataset('tips') #seaborn库自带的数据集
tips.head()

二、问题探索
- 小费金额与消费总金额是否存在相关性?
- 性别、是否吸烟、星期几、聚餐人数和小费金额是否有一定的关联?
- 小费金额占小费总金额的百分比是否服从正态分布?
三、数据清洗
tips.shape #数据集的维度
(244,7)
共有244条数据,7列。
tips.describe() #描述统计

描述统计结果如上所示。
tips.info() #查看缺失值信息
<

本文介绍了一位Python初学者使用seaborn自带的小费数据集进行数据分析的过程,包括数据来源、问题探索、数据清洗和数据探索。研究了小费金额与消费总金额的关系,以及性别、吸烟状况、星期和聚餐人数对小费的影响。结果显示小费与消费总金额正相关,女性小费较低,周末小费较高,且小费比例大致服从正态分布。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



