Python pandas数据库风格的数据合并

最新推荐文章于 2024-01-11 22:12:27 发布

原创最新推荐文章于 2024-01-11 22:12:27 发布 · 1.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Python 专栏收录该内容

148 篇文章

订阅专栏

本文通过实例详细解析了Pandas库中的merge函数用法，展示了如何根据共享键(key)合并两个DataFrame，以及不同情况下的合并结果。

我个人不是很熟悉数据库，不是很清楚什么是数据库风格。不过，通过简单的测试看一下这到底是什么功能，做一下简单的总结还是可以的。

In [1]: import numpy as np

In [2]: import pandas as pd

In [3]: from pandas import Series,DataFrame

In [4]: df1 = DataFrame({'key':['b','b','a','c','a','a','b'],'data1':range(7)})

In [5]: df2 = DataFrame({'key':['a','b','d'],'data2':range(3)})

In [6]: df1

Out[6]:

data1 key

0 0 b

1 1 b

2 2 a

3 3 c

4 4 a

5 5 a

6 6 b

In [7]: df2

Out[7]:

data2 key

0 0 a

1 1 b

2 2 d

In [8]: pd.merge(df1,df2)

Out[8]:

data1 key data2

0 0 b 1

1 1 b 1

2 6 b 1

3 2 a 0

4 4 a 0

5 5 a 0

看到这个结果有些不理解，说以df1为基础进行df2的合并，df1的c却丢失了。这就罢了，其实df2的数据也是不完整的。猜想是不是merge方法参数的顺序会对对结果有什么影响？把参数顺序反转一下，结果如下：

In [9]: pd.merge(df2,df1)

Out[9]:

data2 key data1

0 0 a 2

1 0 a 4

2 0 a 5

3 1 b 0

4 1 b 1

5 1 b 6

上面的结果与第一次merge的结果完全一致，看来参数的顺序并不会对结果产生什么影响。继续找一下规律，找到一个新的规律：如果是把字母那一列作为key，那么合并的列表中全都是共有的key。而左右两边的数值则分别涵盖了merge的两组数据。为了验证假设，再做一个测试：

In [10]: df2 = DataFrame({'key':['a','b','d','b'],'data2':range(4)})

In [11]: pd.merge(df2,df1)

Out[11]:

data2 key data1

0 0 a 2

1 0 a 4

2 0 a 5

3 1 b 0

4 1 b 1

5 1 b 6

6 3 b 0

7 3 b 1

8 3 b 6

In [12]: df2

Out[12]:

data2 key

0 0 a

1 1 b

2 2 d

3 3 b

从上面的结果可以看出，前面的总结猜测不错。merge功能实现的是共有key的所有数值表的合并。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。