pandas读取较大文件卡死问题的一个可能原因

       最近遇到一个pandas.read_csv读取一个200多兆大小的文件卡死的问题,其实该文件也不算太大,而且笔者的机器配置也不低,但是就是卡了。就算怀疑文件太大,使用chunksize分块读取返回迭代器处理也不行。

       刚开始还报了一个错是文件格式不规范,导致有些行的列数过多,以为只是少数,所以设置了error_bad_lines=False,不让其报错而是直接忽略这些行。最终发现问题就是由该设置引起。最后仔细查看原始文件,发现原始文件第一行是一串文字,所以导致pandas以第一行的格式为准,让后面所有行都被识别为bad line,而pandas对bad line的判断是由异常扑捉实现的,当异常发生,异常捕捉实际上是个相对耗时的过程,而该文件的行数也很多,从而导致不断触发异常,故时间累积就变得很长,产生卡死的现象。

       最后,通过设置skiprows=1或者skiprows=[0]之后,就能够很快的成功读取了。因此,之后发现读取较大文件卡死现象,要先仔细分析原始文件的格式,还要注意在设置error_bad_lines参数为False之后,意识到bad line的数量问题,数量太多可能会造成IO时间过长。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值