机器学习6：——Pandas——6：高级处理3：数据合并

最新推荐文章于 2025-05-15 17:32:30 发布

原创最新推荐文章于 2025-05-15 17:32:30 发布 · 676 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #pycharm #机器学习 #pandas

机器学习专栏收录该内容

10 篇文章

订阅专栏

一.高级处理-合并

学习目标

目标
- 应用pd.concat实现数据的合并
- 应用pd.merge实现数据的合并
应用
- 无

如果你的数据由多张表组成，那么有时候需要将不同的内容合并在一起分析**

1 pd.concat实现数据合并

pd.concat([data1, data2], axis=1)
- 按照行或列进行合并,axis=0为列索引，axis=1为行索引

比如我们将刚才处理好的one-hot编码与原数据合并

在这里插入图片描述

# 按照行索引进行
pd.concat([data, dummies], axis=1)

2 pd.merge

pd.merge(left, right, how=‘inner’, on=None, left_on=None, right_on=None)
- 可以指定按照两组数据的共同键值对合并或者左右各自
- left: A DataFrame object
- right: Another DataFrame object
- on: Columns (names) to join on. Must be found in both the left and right DataFrame objects.
- left_on=None, right_on=None：指定左右键

Merge method	SQL Join Name	Description
`left`	`LEFT OUTER JOIN`	Use keys from left frame only
`right`	`RIGHT OUTER JOIN`	Use keys from right frame only
`outer`	`FULL OUTER JOIN`	Use union of keys from both frames
`inner`	`INNER JOIN`	Use intersection of keys from both frames

2.1 pd.merge合并

left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                        'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                        'key2': ['K0', 'K0', 'K0', 'K0'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']})

# 默认内连接
result = pd.merge(left, right, on=['key1', 'key2'])

在这里插入图片描述

左连接

result = pd.merge(left, right, how='left', on=['key1', 'key2'])

在这里插入图片描述

右连接

result = pd.merge(left, right, how='right', on=['key1', 'key2'])

在这里插入图片描述

外链接

result = pd.merge(left, right, how='outer', on=['key1', 'key2'])

在这里插入图片描述

3 总结

pd.concat([数据1, 数据2], axis=**)【知道】
pd.merge(left, right, how=, on=)【知道】
- how – 以何种方式连接
- on – 连接的键的依据是哪几个

二.案例实现

数据合并

In [38]:

data.head()

Out[38]:

	open	high	close	low	volume	price_change	p_change	ma5	ma10	ma20	v_ma5	v_ma10	v_ma20	turnover
2018-02-27	23.53	25.88	24.16	23.53	95578.03	0.63	2.68	22.942	22.142	22.875	53782.64	46738.65	55576.11	2.39
2018-02-26	22.80	23.78	23.53	22.80	60985.11	0.69	3.02	22.406	21.955	22.942	40827.52	42736.34	56007.50	1.53
2018-02-23	22.88	23.37	22.82	22.71	52914.01	0.54	2.42	21.938	21.929	23.022	35119.58	41871.97	56372.85	1.32
2018-02-22	22.25	22.76	22.28	22.02	36105.01	0.36	1.64	21.446	21.909	23.137	35397.58	39904.78	60149.60	0.90
2018-02-14	21.49	21.99	21.92	21.48	23331.04	0.44	2.05	21.366	21.923	23.253	33590.21	42935.74	61716.11	0.58

In [39]:

data_dummies.head()

Out[39]:

	best_35	best_51	best_57	best_188	best_215
(0, 3]	0	0	0	0	1
(-3, 0]	0	0	0	1	0
(3, 5]	0	0	1	0	0
(-5, -3]	0	1	0	0	0
(5, 7]	1	0	0	0	0

In [50]:

data_con = pd.concat([data,data_dummies],axis = 1)

df.concat([df1, df2],axis=1)：将df2中的列添加到df1的尾部

In [51]:

data_con

Out[51]:

	open	high	close	low	volume	price_change	p_change	ma5	ma10	ma20	…	v_ma10	v_ma20	turnover	best_28	best_34	best_35	best_51	best_57	best_188	best_215
(-100, -7]	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	…	NaN	NaN	NaN	0.0	1.0	0.0	0.0	0.0	0.0	0.0
(-7, -5]	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	…	NaN	NaN	NaN	1.0	0.0	0.0	0.0	0.0	0.0	0.0
(-5, -3]	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	…	NaN	NaN	NaN	0.0	0.0	0.0	1.0	0.0	0.0	0.0
(-3, 0]	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	…	NaN	NaN	NaN	0.0	0.0	0.0	0.0	0.0	1.0	0.0
(0, 3]	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	…	NaN	NaN	NaN	0.0	0.0	0.0	0.0	0.0	0.0	1.0
…	…	…	…	…	…	…	…	…	…	…	…	…	…	…	…	…	…	…	…	…	…
2018-02-14	21.49	21.99	21.92	21.48	23331.04	0.44	2.05	21.366	21.923	23.253	…	42935.74	61716.11	0.58	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2018-02-22	22.25	22.76	22.28	22.02	36105.01	0.36	1.64	21.446	21.909	23.137	…	39904.78	60149.60	0.90	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2018-02-23	22.88	23.37	22.82	22.71	52914.01	0.54	2.42	21.938	21.929	23.022	…	41871.97	56372.85	1.32	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2018-02-26	22.80	23.78	23.53	22.80	60985.11	0.69	3.02	22.406	21.955	22.942	…	42736.34	56007.50	1.53	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2018-02-27	23.53	25.88	24.16	23.53	95578.03	0.63	2.68	22.942	22.142	22.875	…	46738.65	55576.11	2.39	NaN	NaN	NaN	NaN	NaN	NaN	NaN

651 rows × 21 columns

用merge()内连接：看key值，如左表有0 1 0，右表也有0 1 0，才会保留该行，同时保留两表对应的值。
如果左表中的key在右表中有两行，那么就保留两行的值。

In [52]:

left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                        'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                        'key2': ['K0', 'K0', 'K0', 'K0'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']})

In [57]:

pd.merge(left,right,on = ['key1','key2'])

Out[57]:

	key1	key2	A	B	C	D
0	K0	K0	A0	B0	C0	D0
1	K1	K0	A2	B2	C1	D1
2	K1	K0	A2	B2	C2	D2

1.内连接

In [58]:

pd.merge(left,right,on = ['key1','key2'],how = "inner")

Out[58]:

	key1	key2	A	B	C	D
0	K0	K0	A0	B0	C0	D0
1	K1	K0	A2	B2	C1	D1
2	K1	K0	A2	B2	C2	D2

2.外连接

In [59]:

pd.merge(left,right,on = ['key1','key2'],how = "outer")

Out[59]:

	key1	key2	A	B	C	D
0	K0	K0	A0	B0	C0	D0
1	K0	K1	A1	B1	NaN	NaN
2	K1	K0	A2	B2	C1	D1
3	K1	K0	A2	B2	C2	D2
4	K2	K1	A3	B3	NaN	NaN
5	K2	K0	NaN	NaN	C3	D3

3.左连接

In [60]:

pd.merge(left,right,on = ['key1','key2'],how = "left")

Out[60]:

	key1	key2	A	B	C	D
0	K0	K0	A0	B0	C0	D0
1	K0	K1	A1	B1	NaN	NaN
2	K1	K0	A2	B2	C1	D1
3	K1	K0	A2	B2	C2	D2
4	K2	K1	A3	B3	NaN	NaN

4.右连接

In [61]:

pd.merge(left,right,on = ['key1','key2'],how = "right")

Out[61]:

	key1	key2	A	B	C	D
0	K0	K0	A0	B0	C0	D0
1	K1	K0	A2	B2	C1	D1
2	K1	K0	A2	B2	C2	D2
3	K2	K0	NaN	NaN	C3	D3

	key1	key2	A	B	C	D
0	K0	K0	A0	B0	C0	D0
1	K0	K1	A1	B1	NaN	NaN
2	K1	K0	A2	B2	C1	D1
3	K1	K0	A2	B2	C2	D2
4	K2	K1	A3	B3	NaN	NaN
5	K2	K0	NaN	NaN	C3	D3

	key1	key2	A	B	C	D
0	K0	K0	A0	B0	C0	D0
1	K0	K1	A1	B1	NaN	NaN
2	K1	K0	A2	B2	C1	D1
3	K1	K0	A2	B2	C2	D2
4	K2	K1	A3	B3	NaN	NaN

	key1	key2	A	B	C	D
0	K0	K0	A0	B0	C0	D0
1	K0	K1	A1	B1	NaN	NaN
2	K1	K0	A2	B2	C1	D1
3	K1	K0	A2	B2	C2	D2
4	K2	K1	A3	B3	NaN	NaN
5	K2	K0	NaN	NaN	C3	D3

	key1	key2	A	B	C	D
0	K0	K0	A0	B0	C0	D0
1	K0	K1	A1	B1	NaN	NaN
2	K1	K0	A2	B2	C1	D1
3	K1	K0	A2	B2	C2	D2
4	K2	K1	A3	B3	NaN	NaN

	key1	key2	A	B	C	D
0	K0	K0	A0	B0	C0	D0
1	K0	K1	A1	B1	NaN	NaN
2	K1	K0	A2	B2	C1	D1
3	K1	K0	A2	B2	C2	D2
4	K2	K1	A3	B3	NaN	NaN
5	K2	K0	NaN	NaN	C3	D3

	key1	key2	A	B	C	D
0	K0	K0	A0	B0	C0	D0
1	K0	K1	A1	B1	NaN	NaN
2	K1	K0	A2	B2	C1	D1
3	K1	K0	A2	B2	C2	D2
4	K2	K1	A3	B3	NaN	NaN