Python之pandas实现更复杂的Excel操作

最新推荐文章于 2025-10-11 11:07:19 发布

原创最新推荐文章于 2025-10-11 11:07:19 发布 · 2.2k 阅读

CC 4.0 BY-SA版权

通过Python的pandas库，演示了如何处理Excel数据，实现对每位学生两次模拟考试成绩涨跌的计算。文章介绍了两种方法，包括分组求差值和使用diff()函数，并展示了利用索引排序进行数据匹配的操作。最后总结了分组聚合、参数影响及数据操作方法的关键知识点。

引导关注

◆ ◆ ◆ ◆ ◆

我是需求

有人问了我一个这样的问题，题目是：……。直接上图吧~

总之一句话，给我求出每名同学两次模拟考试的成绩涨跌情况。

我来安排

1.造点假数据

import pandas as pd
data = {'考试':['一模','二模','一模','二模','一模','二模'],
        '姓名':['张三','张三','李四','李四','王五','王五'],
        '语文':[78,75,68,72,80,82],
        '数学':[90,95,78,76,100,92],
        '英语':[85,82,78,76,86,93]}
df = pd.DataFrame(data)
df

#方法一#

2.1先分组求首尾数据之差

# 一定要深刻体会groupby后加的字段的不同
delta = df.groupby('姓名')['考试','语文','数学','英语'].last() - df.groupby('姓名')['语文','数学','英语'].first()
# 重设索引，使姓名列恢复列字段
delta.reset_index(inplace = True)
# 填充为对比，满足需求的每一个小细节
delta.fillna('对比',inplace=True)
# 输出瞧一瞧
delta

3.1使用append添加结果进去

# 这种方式是可以设置ignore_index = True
df.append(delta,ignore_index = True,sort = False).sort_values('姓名').reset_index(drop=True)

#方法二#

2.2先分组使用diff( )方法求差值

delta = df.groupby('姓名').diff().dropna()
delta

3.2使用append添加结果进去

# 这种方式必须设置ignore_index = False，否则在索引排序时就会匹配不到结果
df.append(delta,ignore_index = False,sort = False).sort_index().fillna({'考试':'对比'}).fillna(method = 'ffill')