Python 数据合并方法 —— Pandas concat() 详解

Pigou_

已于 2022-05-04 19:18:42 修改

阅读量9.6k

点赞数 4

分类专栏：数据科学文章标签： python 数据分析

于 2022-05-04 19:16:13 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_44460572/article/details/124575175

版权

数据科学专栏收录该内容

7 篇文章

订阅专栏

本文详细介绍了Pandas的concat()方法，主要用于数据的纵向合并。与merge()不同，concat()提供了更精细的连接控制。通过示例展示了ignore_index参数的用法，以及如何在合并时处理索引重复问题。此外，还提及了verify_integrity参数，该参数用于验证合并后的索引是否有重复值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参数说明

pandas.concat(objs, axis=0, join=‘outer’, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True)

Parameters 参数说明：

Parameters	Description
objs	序列或映射。如果传递了映射，则排序的键将用作键参数，除非传递，在这种情况下将选择值。任何 None 对象都将被静默删除，除非它们都是 None 在这种情况下将引发 ValueError 。
axis	{0/‘index’, 1/‘columns’}，默认0。要连接的轴。
join	{‘inner’, ‘outer’}, 默认‘outer’。如何处理其他轴（或轴）上的索引。
ignore_index	bool，默认为 False。如果为 True，则不要沿连接轴使用索引值。结果轴将标记为 0, …, n - 1。如果您要连接对象，而连接轴没有有意义的索引信息，这将非常有用。请注意，连接中仍然尊重其他轴上的索引值。
keys	键序列，默认无。如果通过了多个级别，则应包含元组。使用传递的键作为最外层构建层次索引。
levels	序列列表，默认无。用于构造 MultiIndex 的特定级别（唯一值）。否则，它们将从密钥中推断出来。
names	默认无。生成的分层索引中的级别名称。
verify_integrity	bool 布林值，默认为 False。检查新的连接轴是否包含重复项。相对于实际的数据连接，这可能非常昂贵。
sort	bool 布林值，默认为 False。如果连接为“外部”时尚未对齐，则对非连接轴进行排序。这在 join=‘inner’ 时无效，它已经保留了非串联轴的顺序。在 1.0.0 版更改: 默认情况下更改为不排序。
copy	bool 布林值，默认 True。如果为 False，则不要不必要地复制数据。

concat说明

前面讲了merge()，merge()主要是用于横向的连接合并，有兴趣的可以看看那篇merge()。今天写的这个methods主要是用于数据的竖向合并

当需要对连接的执行方式进行大量控制时， .concat() 方法非常有用。但是，如果不需要太多控制，那么 .append() 方法是另一种选择。

# Use the .append() method to combine the tracks tables
metallica_tracks = tracks_ride.append([tracks_master, tracks_st], sort=False)

# Merge metallica_tracks and invoice_items
tracks_invoices = metallica_tracks.merge(invoice_items, on='tid')

# For each tid and name sum the quantity sold
tracks_sold = tracks_invoices.groupby(['tid','name']).agg({'quantity':'sum'})

# Sort in decending order by quantity and print the results
print(tracks_sold.sort_values(by = 'quantity', ascending = False))

直接table1 去append()另外两张table就好了，其他的参数和concat一样

ignore_index 示例

如果ignore_index = False，则会使用连接轴axis的索引值，比如下图的012， 012，012。如果有keys的话，则会将keys显现出来，放到最外层做一个索引。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-c89fuBOe-1651660540901)(Concatenate%20DataFrames%20together%20vertically%20f6a39cab3fbc4775bdc5298d0a552852/Untitled.png)]

如果为True，则会重新排序，从0开始到n-1。在这里插入图片描述

Example

先po三张表出来，方便大家看看这三张表的样例。
Table 1：tracks_master 在这里插入图片描述

Table 2：tracks_ride
在这里插入图片描述

Table 3：tracks_st
在这里插入图片描述

合并上面三个表，竖向合并

# Concatenate the tracks
tracks_from_albums = pd.concat([tracks_master, tracks_ride, tracks_st],
                               sort=True)
print(tracks_from_albums)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KaWtwOw3-1651660540906)(Concatenate%20DataFrames%20together%20vertically%20f6a39cab3fbc4775bdc5298d0a552852/Untitled%205.png)]

加了ignore_index = True，旁边就多了新的index进行排序，见下图。注意，当有key的时候，ingnore_index如果是False，否则keys作为最外层的索引将会消失。

# Concatenate the tracks so the index goes from 0 to n-1
tracks_from_albums = pd.concat([tracks_master, tracks_ride, tracks_st],
                               ignore_index = True,
                               sort=True)
print(tracks_from_albums)

在这里插入图片描述

因为concat中默认是outer，他会进行全部的输出。我们可以使用inner，这样就能取得交集。

# Concatenate the tracks, show only columns names that are in all tables
tracks_from_albums = pd.concat([tracks_master, tracks_ride, tracks_st],
                               join = 'inner',
                               sort=True)
print(tracks_from_albums)