如何将Pandas迭代速度加快150倍？

最新推荐文章于 2025-04-27 09:25:32 发布

wulishinian

最新推荐文章于 2025-04-27 09:25:32 发布

阅读量956

点赞数

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wulishinian/article/details/105451460

本文探讨了如何优化Pandas的行迭代速度，对比了iterrows()和itertuples()方法。通过示例，揭示了itertuples()在处理大量数据时能显著提高效率，大约快了154倍，强调了在数据科学中优化迭代操作的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

面对现实吧，Python的速度在与C语言或Go语言相比时，的确引发了不少口水战。

这让笔者一段时间以来，一直对Python快速处理任务的能力有所怀疑。

目前，笔者尝试在Go语言中进行数据科学研究——这是有可能的——但操作起来根本不像在Python中那样令人愉快，多半是由于语言的静态特性和数据科学大多是探索性领域。

并不是说用Go语言重写完成的解决方案不能提高性能，但这是另一篇文章的主题。

迄今为止，笔者至少忽略了Python可以更快地处理任务这一能力。笔者一直饱受目光短浅之苦——这是一种表现为当你只看到一种解决方案时，完全忽视其他方案的存在的综合征。相信出现这种情况的不只笔者自己。

这就是笔者今天想简要介绍如何令Pandas每日工作速度更快且更为愉悦的原因。更准确地说，该示例将关注行之间的迭代，并在过程中执行一些数据操作。因此，事不宜迟，一起进入正题。

做一个数据集

把观点论述清楚最简单的方法是声明一个单列数据框对象，其整数值范围为1到100000：

file

真的不需要任何更为复杂的东西来解决Pandas的速度问题。为验证一切进展顺利，以下是数据集的前几行和整体形状：

file

好了，准备工作已做足，现在一起看看如何遍历以及如何不遍历数据框的行。首先介绍如何不进行选择。

以下是你不应该做的事

啊，笔者一直在使用（和过度使用）如此多的iterrows()方法。它在默认情况下速度很慢，但你知道笔者费心去寻找替代方案的原因（目光短浅）。

为证明你不该使用iterrows()方法在数据框中进行遍历，笔者会做个快速演

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。