1 缘由
最近做一个小项目,pandas加载内存500万条记录,需要做条件查询。单次查询需要300ms,遍历下来是无法忍受的。
2 结论
尝试了许多方法,直接上图吧。留个记录

可以看到速度效率:加索引 > query > 传统方法。
3 参考链接
百度搜索不易,谷歌搜索也茫茫。找到的参考链接如下:
- https://www.shuzhiduo.com/A/GBJrKM1q50/ query和eval用法
- https://www.longzf.com/from_Pandas-wan_to_Pandas-master/ 在这里发现索引方法,之前一直想像数据库那样加索引
- https://www.jianshu.com/p/6de7b6fd3790 数据csv读取再保存pkl,方便下次读取加速,此外还有列计算加速
- https://www.thinbug.com/q/46426875 iloc和iat对比,标量查询iat快70%
本文针对Pandas处理大量数据时的性能问题,通过实践对比了不同的查询方法,包括使用索引、query函数等,并总结出加索引的方式可以显著提高查询速度。
4587

被折叠的 条评论
为什么被折叠?



