Python Pandas 如何实现两个 DataFrame 相减？

原创于 2025-05-16 13:01:09 发布 · 1.1k 阅读

CC 4.0 BY-SA版权

文章标签：

在数据分析和数据科学领域，Python 的 Pandas 库已经成为处理结构化数据的必备工具。Pandas 提供了强大的数据操作功能，能够轻松地进行各种复杂的计算和转换。今天我们就来聊聊如何使用 Pandas 实现两个 DataFrame 的相减操作。

一、为什么需要了解 DataFrame 相减？

在实际的数据分析工作中，我们常常会遇到需要比较两个不同时间点的数据集，或者对比两个不同来源的数据表。比如：

比较公司每个月的销售业绩变化；
对比两个版本的用户行为数据差异；
分析政策调整前后的市场反应。

这些问题都可以通过将两个 DataFrame 进行相减操作来解决。相减操作不仅可以帮助我们快速找到数据之间的差异，还能为进一步的分析提供基础。

二、准备工作

1. 安装 Pandas

如果你还没有安装 Pandas，可以通过 pip 工具来安装：

pip install pandas

2. 导入 Pandas 库

在 Python 脚本中导入 Pandas 库：

import pandas as pd

3. 创建示例 DataFrame

为了更好地理解如何实现 DataFrame 的相减操作，我们先创建两个简单的 DataFrame 作为示例。

data1 = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df1 = pd.DataFrame(data1)

data2 = {'A': [1, 2, 4], 'B': [4, 5, 7]}
df2 = pd.DataFrame(data2)

这两个 DataFrame df1 和 df2 都有两列（‘A’ 和 ‘B’），但其中某些值是不同的。接下来我们将探讨如何对它们进行相减操作。

三、直接相减法

最简单的方法就是直接使用减号 - 来进行两个 DataFrame 的相减操作。对于上面的例子来说，我们可以这样做：

result = df1 - df2
print(result)

输出结果为：

从结果可以看出，当两个 DataFrame 的形状相同且索引也一致时，直接相减可以得到一个新的 DataFrame，其中每个元素都是对应位置上的数值之差。

但是这种方法有一个局限性：如果两个 DataFrame 的形状或索引不完全匹配，就会出现 NaN 值。例如：

data3 = {'A': [1, 2], 'C': [8, 9]}
df3 = pd.DataFrame(data3)

result = df1 - df3
print(result)

输出结果为：

     A    B    C
0  0.0 -4.0 -8.0
1  0.0 -4.0 -9.0
2  NaN  NaN  NaN

这里可以看到，由于 df1 和 df3 的列名和长度不一样，导致相减后产生了大量的 NaN 值。这显然不是我们想要的结果。

四、使用 subtract 方法

为了避免上述问题，我们可以使用 Pandas 提供的 subtract() 方法来进行更灵活的相减操作。subtract() 方法允许我们指定填充缺失值的方式，从而避免生成过多的 NaN 值。

1. 填充缺失值

假设我们希望在相减时将不存在的列填充为 0，那么可以这样写：

result = df1.subtract(df3, fill_value=0)
print(result)

输出结果为：

现在即使存在不同的列名，也能正确计算出差异，并且没有产生 NaN 值。

2. 处理不同索引

有时我们还会遇到两个 DataFrame 索引不同的情况。这时候可以使用 reindex() 方法来重新排列其中一个 DataFrame 的索引，然后再进行相减操作。

df4 = pd.DataFrame({'A': [1, 2, 4]}, index=[0, 2, 3])
df5 = pd.DataFrame({'A': [1, 2, 3]}, index=[0, 1, 2])

# 先将 df4 重排索引以匹配 df5
df4_aligned = df4.reindex(df5.index).fillna(0)

# 再进行相减操作
result = df4_aligned.subtract(df5)
print(result)

输出结果为：

通过这种方式，我们可以确保即使在索引不同时也能准确地完成相减操作。

五、基于 CDA 数据分析师的视角

对于那些正在备考或已经获得 CDA（Certified Data Analyst） 认证的专业人士来说，掌握这种技巧是非常重要的。因为在实际工作场景中，经常需要对多个版本的数据集进行对比分析，找出其中的变化趋势或者异常点。

举个例子，假设你是某电商公司的数据分析师，需要定期检查每日的商品库存数据是否有误。你可以每天生成一份最新的商品库存 DataFrame，并将其与前一天的数据相减，从而快速定位到哪些商品的数量发生了变化。这样一来，不仅提高了工作效率，还减少了人为错误的可能性。

此外，在金融行业中，交易员们也需要频繁地对比不同时间段内的市场行情数据，以便及时调整投资策略。使用 Pandas 的相减功能可以帮助他们更快捷地发现潜在的投资机会。

总之，无论是哪个行业，能够熟练运用 Pandas 进行 DataFrame 的相减操作都是一项非常实用的技能。

六、实战演练

为了让读者朋友们更好地理解和应用这些知识，下面给出一个稍微复杂一点的实际案例。

场景描述

你是一家连锁餐厅的数据分析师，老板要求你统计最近一周内各个分店每天的销售额变化情况。你手头有两个 CSV 文件，分别记录了上周和本周的每日销售额数据。请编写一段代码，读取这两个文件中的数据，并计算出本周相对于上周每个分店每天的销售额增减情况。

解决方案

首先，我们需要确保两个 CSV 文件中的日期格式是一致的，并且按照相同的顺序排列。然后可以使用 Pandas 的 read_csv() 函数加载数据，再利用之前学到的知识完成相减操作。

# 加载上周和本周的销售数据
last_week_sales = pd.read_csv('last_week_sales.csv')
this_week_sales = pd.read_csv('this_week_sales.csv')

# 将日期设为索引，并按日期排序
last_week_sales.set_index('Date', inplace=True)
last_week_sales.sort_index(inplace=True)

this_week_sales.set_index('Date', inplace=True)
this_week_sales.sort_index(inplace=True)

# 确保两个 DataFrame 的形状一致
if last_week_sales.shape != this_week_sales.shape:
    print("Warning: The shape of two DataFrames are not the same.")
else:
    # 执行相减操作
    sales_diff = this_week_sales.subtract(last_week_sales)
    
    # 输出结果
    print(sales_diff)