Python比较两个csv文件的差异
一、背景
很多时候,为了方便维护版本信息,我们更愿意使用CSV而不是xlsx文件,因为CSV文件支持更多的打开方式,尤其在仓库上维护的话更加方便。在某些场景下我们需要对于两个CSV文件进行一些对比,对于一些简单少量的数据对比,我们可能可以直接使用人工对比,当我们有很多数据的时候,人工对比就不是一个很好的方式了,那这个时候就需要我们使用到一些简单的小脚本工具来帮助我们完成这个工作,此文章旨在于提供一个比较自动化的脚本来比较两个不同的csv文件,下面就是一些介绍和源码。
二、步骤和思路
- 读取两个不同的文件。
- 通过pandas库的一些方法比较文件内容。
- 打印出文件的差异,比如增加内容和删除内容。
三、Pandas的一些方法介绍
apply
方法apply
是pandas DataFrame
的一个方法,用于对DataFrame
的每一行或每一列应用一个函数。axis=1
表示对每一行应用函数。df.apply(tuple, 1)
这段代码的意思是将df
的每一行转换为一个元组。结果是一个包含每一行元组的pandas.Series