pandas比较2个dataframe不同部分

import pandas as pd
import numpy as np

df1=pd.DataFrame({'A':['a','b','c','d'],'B':['h','i','j','k'],'C':['o','p','q','r']})
df2=pd.DataFrame({'A':['a','b','c','d'],'B':['H','i','j','k'],'C':['o','p','q','R']})
display(df1,df2)

# 先找到任意一项不同的行索引
ne = (df1 != df2).any(axis=1)
ne

# 把列变成行
ne_stacked = (df1 != df2).stack()
ne_stacked

changed = ne_stacked[ne_stacked] # 我们可以看到哪些条目发生了更改
changed.index.names = ['id', 'col'] #设置索引名称 方便观察
changed

difference_locations = np.where(df1 != df2)
changed_from = df1.values[difference_locations]
changed_to = df2.values[difference_locations]
pd.DataFrame({'from': changed_from, 'to': changed_to}, index=changed.index)


*注意:重要的是df1和df2在这里共享相同的索引。为了克服这种模糊性,您可以确保只使用df1.index & df2.index查看共享标签,但我认为这将作为练习。

组装成函数

def compare_df(df1,df2):
    cond=df1 != df2
    ne_stacked = cond.stack()
    changed = ne_stacked[ne_stacked]
    changed.index.names = ['id', 'col']
    difference_locations = np.where(cond)
    changed_from = df1.values[difference_locations]
    changed_to = df2.values[difference_locations]
    return pd.DataFrame({'from': changed_from, 'to': changed_to}, index=changed.index)
compare_df(df1,df2)

翻译自:https://stackoverflow.com/questions/17095101/compare-two-dataframes-and-output-their-differences-side-by-side

### 回答1: 要比较两个pandas dataframe,可以使用pandas的equals()函数。该函数将比较两个dataframe的每个元素,并返回一个布尔值,表示两个dataframe是否相等。如果两个dataframe相等,则返回True,否则返回False。另外,还可以使用pandas的compare()函数来比较两个dataframe不同之处。该函数将返回一个新的dataframe,其中包含两个dataframe之间的差异。 ### 回答2Pandas是一种Python的开源数据分析库,包含了各种数据操作的工具,其中比较两个DataFrame的方法也十分方便。 比较两个DataFrame有多种方法,包括使用equals、compare等方法。下面我们来介绍一下这些方法的使用。 1. equals方法 equals方法比较两个DataFrame所有的元素是否相等,返回True或False。可以通过指定参数来控制比较方式,在默认情况下比较排序、列名、数据类型等多方面,如果全部相等则返回True。 使用示例: ```python import pandas as pd df1 = pd.read_csv('data1.csv') df2 = pd.read_csv('data2.csv') print(df1.equals(df2)) #比较df1和df2是否相等,返回True或False ``` 2. DataFrame.compare方法 DataFrame.compare方法可以比较两个DataFrame中相同列名的数据列,返回一个新的DataFrame比较的方式包括行、列、数据类型等多方面。 使用示例: ```python import pandas as pd df1 = pd.read_csv('data1.csv') df2 = pd.read_csv('data2.csv') print(df1.compare(df2)) #比较df1和df2每列数据是否相等,返回一个新的DataFrame ``` 3. merge方法 merge方法可以将两个DataFrame合并成一个新的DataFrame,可以指定合并的列和方式。 使用示例: ```python import pandas as pd df1 = pd.read_csv('data1.csv') df2 = pd.read_csv('data2.csv') merge_df = pd.merge(df1, df2, on=['id'], how='inner') print(merge_df) #将df1和df2合并成一个新的DataFrame ``` 以上就是比较两个DataFrame的方法,通过这些方法可以很方便地比较和合并两个DataFrame。当然,根据实际情况选择合适的方法对于数据分析也非常重要。 ### 回答3: Pandas是一个Python的数据处理库,在数据科学和数据分析领域广泛应用。Pandas中的Dataframe是一种基于行和列进行操作的二维数据结构,类似于电子表格或SQL中的表格。 当我们需要对比两个Dataframe的内容时,可以采取以下两种方式: 1. 使用equals()方法进行对比 equals()方法可以比较两个Dataframe是否相等,并返回一个布尔值。如果两个Dataframe的形状、列名、列的数据类型、列的值都相等,则返回True,否则返回False。例如,我们可以使用以下代码比较两个Dataframe: ```python import pandas as pd df1 = pd.DataFrame({'A':[1,2,3],'B':[4,5,6]}) df2 = pd.DataFrame({'A':[1,2,3],'B':[4,5,6]}) print(df1.equals(df2)) ``` 结果输出为True,说明两个Dataframe相等。 2. 使用compare()方法进行对比 compare()方法可以比较两个Dataframe的差异,并返回一个新的Dataframe。这个新的Dataframe中包含对比后两个Dataframe中列的差异。比较的时候,我们可以指定需要比较的列,也可以使用默认设置比较所有列。 ```python import pandas as pd df1 = pd.DataFrame({'A':[1,2,3],'B':[4,5,6]}) df2 = pd.DataFrame({'A':[1,2,4],'B':[4,5,6]}) diff = df1.compare(df2) print(diff) ``` 输出结果如下: ``` A self other 2 3 4 ``` 这个结果表明,两个Dataframe中,第二列的第三行数据不相等,df1中是3,df2中是4。 在实际应用中,我们可以根据需要选择适当的方法进行对比。如果只需要确定两个Dataframe是否完全相等,使用equals()方法就足够;如果需要了解两个Dataframe中具体的差异,使用compare()方法会更加方便。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值