点击上方“Datawhale”,选择“星标”公众号
第一时间获取价值内容
![]()
Pandas是数据科学和数据竞赛中常见的库,我们使用Pandas可以进行快速读取数据、分析数据、构造特征。但Pandas在使用上有一些技巧和需要注意的地方,如果你没有合适的使用,那么Pandas可能运行速度非常慢。本文将整理一些Pandas使用技巧,主要是用来节约内存和提高代码速度。
1 数据读取与存取
在Pandas中内置了众多的数据读取函数,可以读取众多的数据格式,最常见的就是read_csv函数从csv文件读取数据了。但read_csv在读取大文件时并不快,所以建议你使用read_csv读取一次原始文件,将dataframe存储为HDF或者feather格式。一般情况下HDF的读取比读取csv文件快几十倍,但HDF文件在大小上会稍微大一些。
建议1:尽可能的避免读取原始csv,使用hdf、feather或h5py格式文件加快文件读取;
在某些定长的字符数据的读取情况下,read_csv读取速度比codecs.readlines慢很多倍。同时如果你想要表格尽量占用较小

本文介绍了Pandas库在数据读取、itertuples与iterrows的比较、apply等操作的优化,以及第三方并行库的使用,提供代码优化思路,以提升数据处理速度和降低内存占用。
最低0.47元/天 解锁文章
734

被折叠的 条评论
为什么被折叠?



