openpyxl读取大文件的若干问题

本文详细介绍了如何使用openpyxl库编写一个EXCEL文件对比工具,包括读取、遍历和对比表之间的差异。面对内存占用过大的挑战,通过升级到X64版本、限制最大单元遍历范围、定期重新读取文件和优化代码结构等方法成功降低了内存消耗。文章深入探讨了解决读取错误和提高程序效率的关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

需要编写一个EXCEL文件对比工具
excel文件通常8MB,300张左右的表,每张表实际范围为ZZ500.

使用openpyxl对表格进行遍历,完成两个表之间的对比,找出公式不相同的单元格
编程中遇到若干问题

1:读取时报错,错误代码忘记了,原因是通过数组的方式读取了一个不存在的数值.

如 SS['AA'],这个数值没有定义,因此报错(PHP直接返回空值),使用SS.get('AA',null)进行修改

D:\Python34\Lib\site-packages\openpyxl\reader\style.py

164: format_code = builtin_formats.get(numFmtId,'General')

2:读取时内存占用过大.
基本就是内存占用了2G以上以后,程序就不动了,原因是某些表格的表格范围识别的非常大,最大可为ZZ65535
通过研究,代码进行了如下修改
1:使用X64版本,X64版本在运行时,可以运行4G以内内存占用的程序,比2G大一倍,能够完成大部分表格的读取,如ZZ5000,但是遇到ZZ65535范围的表格,内存占用达到了4G+,也会导致程序停止运行.
2:限制最大单元格遍历范围,最大限制为ZZ5000,能够有效降低内存占用
3:定时重新读取EXCEL文件(如每对比30张表),释放内存,(Python内存释放真的很痛苦,全部是指针引用,A=B,DEL A;是不会释放空间的,要DEL B才行).
4.虽然openpyxl读取文件时有个只读模式(性能模式),但是速度实在是太慢了.

通过代码修改,现在完成文件对比所用的内存通常在2G以内

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值