Python处理大文件

要将一个4G的文本文件切分开


读取文本文件大致有read() readline()readlines()三种

read()会将所有内容读入到一个字符串中

readlines()将所有内容按行读取,返回一个列表,列表中每个元素是一个字符串,一个字符串是一行内容,所以可利用如下格式处理

[python]  view plain copy
  1. for line in f.readlines():       # 1  
  2.     process(line)  

其实在python2.2之后,文件也是一个对象,甚至可以这样处理

[python]  view plain copy
  1. for line in f:               # 2  
  2.     process(line)    

readline()每次读取一行

所以read()及readlines()效率高,但是需要内存能放的下

而后一种可以处理比较大的文件。

在处理时采用第1种方法和第2中方法,都只处理了不到200M的数据……

采用readline()

[python]  view plain copy
  1. line = f.readline()                    #3  
  2. while line:  
  3.     process(line)  
  4.     line = f.readline()  

同样只处理不到200M,很怪

最终,

[python]  view plain copy
  1. BUFSIZE = 1024                        #4  
  2. lines = f.readlines(BUFSIZE)  
  3. while lines:  
  4.     for line in lines:  
  5.         process(line)  
  6.     lines = readlines(BUFSIZE)  

全部数据处理完毕

但是将BUFSIZE改为10240,又只是处理了不到200M……

=====================================================================================================

自己新建了一个2G左右的文件,

采用readline()不断循环,可以

采用readlines()指定读取行数循环,可以

采用第1中第2中方法,提示内存不足

这才是正常的嘛

效率来说

采用第4种要比第3种快一些


---------------------------------------------------

估计源文件有错误,在文件中间有符号可以被识别为EOF。但是不知为何BUFSIZE为1024时又可以……

--------------------------------------------------

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值