Python处理大文件

最新推荐文章于 2024-08-19 17:47:49 发布

jimmy1357

最新推荐文章于 2024-08-19 17:47:49 发布

阅读量983

点赞数

分类专栏： python 文章标签： python 大文件处理

python 专栏收录该内容

10 篇文章

订阅专栏

要将一个4G的文本文件切分开

读取文本文件大致有read() 、readline()、readlines()三种

read()会将所有内容读入到一个字符串中

readlines()将所有内容按行读取，返回一个列表，列表中每个元素是一个字符串，一个字符串是一行内容，所以可利用如下格式处理

[python]view plaincopy 
   
 for line in f.readlines():       # 1  
     process(line)  

其实在python2.2之后，文件也是一个对象，甚至可以这样处理

[python]view plaincopy 
   
 for line in f:               # 2  
     process(line)    

readline()每次读取一行

所以read()及readlines()效率高，但是需要内存能放的下

而后一种可以处理比较大的文件。

在处理时采用第1种方法和第2中方法，都只处理了不到200M的数据……

采用readline()

[python]view plaincopy 
   
 line = f.readline()                    #3  
 while line:  
     process(line)  
     line = f.readline()  

同样只处理不到200M，很怪

最终，

[python]view plaincopy 
   
 BUFSIZE = 1024                        #4  
 lines = f.readlines(BUFSIZE)  
 while lines:  
     for line in lines:  
         process(line)  
     lines = readlines(BUFSIZE)