Pandas中的数据合并与拼接操作:join、merge
在数据处理的过程中,经常需要对多个数据集进行合并、拼接的操作。Pandas提供了两种常用的方法:join和merge。join是基于索引进行合并的,而merge则可以根据指定的列合并。
下面分别介绍这两种方法的使用和具体实现。
一、join方法
join方法是基于索引进行合并的。通过设置参数how来指定合并方式,默认为left,即以左侧DataFrame的索引为准,右侧DataFrame的缺失值填充为NaN。
示例代码如下:
import pandas as pd
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value1': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value2': [5, 6, 7, 8]})
# 按照key列进行内连接
df3 = df1.set_index('key').join(df2.set_index('key'), how='inner')
print(df3)
其中,set_index方法将DataFrame