Pandas 合并多个Dataframe（merge,concat）

最新推荐文章于 2024-10-23 16:38:32 发布

转载最新推荐文章于 2024-10-23 16:38:32 发布 · 9.3k 阅读

·

3

·

文章标签：

#Pandas #merge #concat

数据分析专栏收录该内容

38 篇文章

订阅专栏

本文详细介绍了如何使用Pandas库中的merge和concat函数进行数据表的合并与拼接，包括左连接、多键合并及列拼接的实现方法。

pd.merge()

在数据处理的时候经常会遇到多个表单的合并问题，比如一个表单有user_id和age这两个字段，另一个表单有user_id和sex这两个字段，要把这两个表合并成只有user_id、age、sex三个字段的表。

普通的拼接是做不到的，因为user_id每一行之间不是对应的。pandas中有个merge函数可以做到这个实用的功能。

df = pd.merge(df1, df2, how='left', on='user_id')

用法很简单，说一下后两个参数就可以了，how=""参数表示以哪个表的key为准，上面的how="left"表示以表df1为准，而key也就是on=""的参数

how="left"就是说，保留user_id字段的全部信息，不增加也不减少，但是拼接的时候只把df2表中的与df1中user_id字段交集的部分合并上就可以了，如果df2中出现了某个user_id在df1中没有出现，就抛弃掉这个样本不作处理。

如果要进行多key合并:

df = pd.merge(df1, df2, how='left', on=['user_id','sku_id'])

pd.concat()

但是如果想仅进行简单的“拼接”而不是合并呢，要使用concat函数：

df = pd.concat([df_user, dummies_sex, dummies_age, dummies_level], axis=1 )

这样可以保留这些表单的全部信息，参数axis=1表示列拼接，axis=0表示行拼接。

要保证每个表单的行数是相同的，并且每一行对应的key也是相同的，列拼接才变得有意义。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。