在做数据处理过程中会遇到多个数据集之间进行拼接的操作,这里由于平时都是用的Pandas读取的数据集,所以一般是针对的是DataFrame类型的数据进行拼接操作。
1. merge
用于通过一个或多个键将两个数据集的行连接起来,类似于 SQL 中的 JOIN。该函数的典型应用场景是,针对同一个主键存在两张包含不同字段的表,现在我们想把他们整合到一张表里。在此典型情况下,结果集的行数并没有增加,列数则为两个元数据的列数和减去连接键的数量。
df.merge(right, how='inner', on=None, left_on=None,
right_on=None, left_index=False, right_index=False,
sort=False, suffixes=('_x', '_y'), copy=True)
参数解释:
right: 要连接的目标数据,类型为DataFrame或者带列名的Series
how :连接方式,类似sql语句中的(left ,right,inner,outer),这里默认为'inner', 可选的参数有left, right , inner , outer
on : 连接的列名或者index, 也就是指明2个要连接的对象之间通过