如何提高Pandas的运行速度？四大性能优化方法

Python_魔力猿

已于 2024-01-05 18:20:29 修改

阅读量1.9k

点赞数

CC 4.0 BY-SA版权

文章标签： pandas python 数据分析开发语言学习

于 2023-06-08 14:45:00 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_68789096/article/details/131102515

本文介绍了四个优化Pandas性能的方法：1) 使用pkl或hdf格式提高数据读取速度；2) 在聚合操作中利用Python内置函数；3) 采用向量化处理替代逐行操作；4) 结合numba加速数值计算。通过实践示例，展示了这些技巧如何显著提升Pandas运行效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Pandas作为数据分析的屠龙宝刀，毫不夸张的说，功能和优势都极其强大。像是支持GB数据处理，多样的数据清洗方法；支持多种开源可视化工具包，更加丰富的数据成果展示等等。因此如果能做好性能优化，就可以极大的提高Pandas的运行速度。本文为大家总结了四大优化Pandas性能的方法，感兴趣的朋友就赶紧看下去吧！
在这里插入图片描述

1、数据读取的优化

读取数据是进行数据分析前的一个必经环节，pandas中也内置了许多数据读取的函数，最常见的就是用pd.read_csv()函数从csv文件读取数据。pkl格式的数据的读取速度最快，所以对于日常的数据集（大多为csv格式），可以先用pandas读入，然后将数据转存为pkl或者hdf格式，之后每次读取数据时候，便可以节省一些时间。代码如下：

import pandas as pd
#读取csv
df = pd.read_csv('xxx.csv')
#pkl格式
df.to_pickle('xxx.pkl') #格式另存
df = pd.read_pickle('xxx.pkl') #读取
#hdf格式
df.to_hdf('xxx.hdf','df') #格式另存
df = pd.read_hdf('xxx.pkl','df') #读取

2、进行聚合操作时的优化

在使用 agg 和 transform 进行操作时，尽量使用Python的内置函数，能够提高运行效率。（数据用的还是上面的测试用例）

（1）agg+Python内置函数
在这里插入图片描述
（2）agg+非内置函数

在这里插入图片描述

可以看到对 agg 方法，使用内置函数时运行效率提升了60%。

（3）transform+Python内置函数

在这里插入图片描述

（4）transform+非内置函数
在这里插入图片描述

对 transform 方法而言，使用内置函数时运行效率提升了两倍。

3、对数据进行逐行操作时的优化

假设我们现在有这样一个电力消耗数据集，以及对应时段的电费价格。数据集记录着每小时的电力消耗，如第一行代表2001年1月13日零点消耗了0.586kwh的电。不同使用时段的电费价格不一样，我们现在的目的是求出总的电费，那么就需要将对应时段的单位电费×消耗电量。下面给出了三种写法，我们分别测试这三种处理方式，对比一下这三种写法有什么不同，代码效率上有什么差异。

#编写求得相应结果的函数
def get_cost(kwh, hour):
if

最低0.47元/天解锁文章

200万优质内容无限畅学