这是要导入的模块
一、数据规整化 – 合并数据集
- pd.merge :连接dataframe的行,实现的是数据库的连接操作
- concat: 沿一条轴将多个对象堆叠到一起
- combine_first:可以将重复数据编接在一起,用一个对象中的值填充另一个对象中的缺失值!
1.pd.merge合并数据集
(1)两个有相同列名的dataframe
# 创建两个dataframe
df1 = DataFrame(
{
'key':list('bbacaab'),
'data1':range(7)
}
)
#通过字典来创建
df2= DataFrame(
{
'key':list('abd'),
'data2':range(3)
}
)
print('df1:\n',df1)
print('df2:\n{}'.format(df2))
# merge 连接 采用的是‘inner'连接的方式,取交集部分,没有交集的会舍弃掉
pd.merge(df1,df2)
# 默认情况下merge会将重复的列当作键来合并,建议使用on 来指定以什么来合并
pd.merge(df1,df2,on='key')
(2)两个无相同列名的dataframe进行合并
# 进行合并,以不同的列
pd.merge(df3,df4,left_on='Lkey',right_on='Rkey')
3.pd.merge参数 how = outer 作为合并参数取并集
pd.merge(df1,df2,how='outer')