来源 和鲸社区 和鲸训练营 第二期
第一期笔记见Pandas基础 | 实战
import pandas as pd
import numpy as np
# 1.读取本地EXCEL数据
df = pd.read_excel(r"E:\pandas120.xlsx")
# 2.查看df数据前5行
df.head()
'''
createTime education salary
0 2020-03-16 11:30:18 本科 20k-35k
1 2020-03-16 10:58:48 本科 20k-40k
2 2020-03-16 10:46:39 不限 20k-35k
3 2020-03-16 10:45:44 本科 13k-20k
4 2020-03-16 10:20:41 本科 10k-20k
'''
# 3.将salary列数据转换为最大值与最小值的平均值
df['salary'] = df['salary'].apply(lambda x: (int(str(x).replace('k','').split('-')[0]) + int(str(x).replace('k','').split('-')[1]))/2*1000)
# 4.将数据根据学历进行分组并计算平均薪资
df.groupby(['education'])['salary'].mean().reset_index().sort_values(