《利用Python进行数据分析》学习笔记 第8章 数据规整:聚合、合并和重塑

本章节聚焦于数据规整,包括聚合、合并和重塑。介绍了层次化索引的概念,如swaplevel和sort_index,以及如何使用set_index和reset_index进行索引操作。讨论了pandas的merge和concat函数在数据集合并中的应用,以及join方法的左连接特性。此外,还讲解了数据的重塑技巧,如pivot和melt函数,用于在长格式和宽格式间转换。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第8章 数据规整:聚合、合并和重塑

8.1 层次化索引

常见的数据层次化结构有两种,一种是表格,一种是“花括号”,表格在行列方向上均有索引(类似于DataFrame),花括号结构只有“列方向”上的索引(类似于层次化的Series),结构更加偏向于(Series-stack,方便记忆)。stack函数会将数据从“表格结构”变成“花括号结构”,即将其行索引变成列索引,反之,unstack函数将数据从“花括号结构”变成“表格结构”,即要将其中一层的列索引变成行索引。

  • 重排与分级排序

swaplevel接受两个级别编号或名称,并返回一个互换了级别的新对象(但数据不会发生变化)。

sort_index根据单个级别中的值对数据进行排序。交换级别时,常常也会用到sort_index,这样最终结果就是按照指定顺序进行字母排序了。

  • 根据级别汇总统计

许多对DataFrame和Series的描述和汇总统计都有一个level选项,它用于指定在某条轴上求和的级别。

  • 使用DataFrame的列进行索引

DataFrame的set_index函数会将其一个或多个列转换为行索引,并创建一个新的DataFrame。默认情况下,那些列会从DataFrame中移除,用drop=False可以将其保留下来。

reset_index的功能跟set_index刚好相反,层次化索引的级别会被转移到列里面

 

8.2 合并数据集

pandas.merge可根据一个或多个键将不同DataFrame中的行连接起来。SQL或其他关系型数据库的用户对此应该会比较熟悉

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值