Pandas常见的性能优化方法

最新推荐文章于 2025-02-09 07:30:00 发布

原创

最新推荐文章于 2025-02-09 07:30:00 发布 · 1.1k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了Pandas库在数据读取、itertuples与iterrows的比较、apply等操作的优化，以及第三方并行库的使用，提供代码优化思路，以提升数据处理速度和降低内存占用。

点击上方“Datawhale”，选择“星标”公众号

第一时间获取价值内容

640?

Pandas是数据科学和数据竞赛中常见的库，我们使用Pandas可以进行快速读取数据、分析数据、构造特征。但Pandas在使用上有一些技巧和需要注意的地方，如果你没有合适的使用，那么Pandas可能运行速度非常慢。本文将整理一些Pandas使用技巧，主要是用来节约内存和提高代码速度。

1 数据读取与存取

在Pandas中内置了众多的数据读取函数，可以读取众多的数据格式，最常见的就是read_csv函数从csv文件读取数据了。但read_csv在读取大文件时并不快，所以建议你使用read_csv读取一次原始文件，将dataframe存储为HDF或者feather格式。一般情况下HDF的读取比读取csv文件快几十倍，但HDF文件在大小上会稍微大一些。

建议1：尽可能的避免读取原始csv，使用hdf、feather或h5py格式文件加快文件读取；

在某些定长的字符数据的读取情况下，read_csv读取速度比codecs.readlines慢很多倍。同时如果你想要表格尽量占用较小

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。