python pandas高级进阶

本文详细介绍了Python Pandas库的高级用法,包括数据规整化的合并、重塑与选择,如pd.merge、concat和combin_first()。还涵盖了数据转换技巧,如清除重复数据、值替换和数据拆分。此外,探讨了数据加载、存储与解析,以及数据聚合与分组计算,如分组聚合、apply函数和透视表的使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这是要导入的模块
在这里插入图片描述

一、数据规整化 – 合并数据集

  1. pd.merge :连接dataframe的行,实现的是数据库的连接操作
  2. concat: 沿一条轴将多个对象堆叠到一起
  3. combine_first:可以将重复数据编接在一起,用一个对象中的值填充另一个对象中的缺失值!

1.pd.merge合并数据集

(1)两个有相同列名的dataframe

 # 创建两个dataframe
df1 = DataFrame(
    {
   
   
        'key':list('bbacaab'),
        'data1':range(7)
    }
)
#通过字典来创建 

df2= DataFrame(
    {
   
   
        'key':list('abd'),
        'data2':range(3)
    }
)
print('df1:\n',df1)
print('df2:\n{}'.format(df2))

在这里插入图片描述

# merge 连接  采用的是‘inner'连接的方式,取交集部分,没有交集的会舍弃掉
pd.merge(df1,df2)
# 默认情况下merge会将重复的列当作键来合并,建议使用on 来指定以什么来合并
pd.merge(df1,df2,on='key')

在这里插入图片描述
(2)两个无相同列名的dataframe进行合并
在这里插入图片描述

# 进行合并,以不同的列
pd.merge(df3,df4,left_on='Lkey',right_on='Rkey')

在这里插入图片描述
3.pd.merge参数 how = outer 作为合并参数取并集

pd.merge(df1,df2,how='outer')

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值