《利用Python进行数据分析》学习笔记第8章数据规整：聚合、合并和重塑

最新推荐文章于 2022-10-31 22:47:16 发布

原创

最新推荐文章于 2022-10-31 22:47:16 发布 · 350 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#数据分析 #Python

本章节聚焦于数据规整，包括聚合、合并和重塑。介绍了层次化索引的概念，如swaplevel和sort_index，以及如何使用set_index和reset_index进行索引操作。讨论了pandas的merge和concat函数在数据集合并中的应用，以及join方法的左连接特性。此外，还讲解了数据的重塑技巧，如pivot和melt函数，用于在长格式和宽格式间转换。

第8章数据规整：聚合、合并和重塑

8.1 层次化索引

常见的数据层次化结构有两种，一种是表格，一种是“花括号”，表格在行列方向上均有索引（类似于DataFrame），花括号结构只有“列方向”上的索引（类似于层次化的Series），结构更加偏向于（Series-stack，方便记忆）。stack函数会将数据从“表格结构”变成“花括号结构”，即将其行索引变成列索引，反之，unstack函数将数据从“花括号结构”变成“表格结构”，即要将其中一层的列索引变成行索引。

重排与分级排序

swaplevel接受两个级别编号或名称，并返回一个互换了级别的新对象（但数据不会发生变化）。

sort_index根据单个级别中的值对数据进行排序。交换级别时，常常也会用到sort_index，这样最终结果就是按照指定顺序进行字母排序了。

根据级别汇总统计

许多对DataFrame和Series的描述和汇总统计都有一个level选项，它用于指定在某条轴上求和的级别。

使用DataFrame的列进行索引

DataFrame的set_index函数会将其一个或多个列转换为行索引，并创建一个新的DataFrame。默认情况下，那些列会从DataFrame中移除，用drop=False可以将其保留下来。

reset_index的功能跟set_index刚好相反，层次化索引的级别会被转移到列里面

8.2 合并数据集

pandas.merge可根据一个或多个键将不同DataFrame中的行连接起来。SQL或其他关系型数据库的用户对此应该会比较熟悉，因为它实现的就是数据库的join操作。

pandas.concat可以沿着一条轴将多个对象堆叠到一起。

实例方法combine_first可以将重复数据拼接在一起，用一个对象中的值填充另一个对象中的缺失值。

数据库风格的DataFrame合并

merge做的是“内连接”，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。