python－读取文件和计算文件行数

大文件处理技巧

最新推荐文章于 2024-06-07 19:26:19 发布

转载最新推荐文章于 2024-06-07 19:26:19 发布 · 513 阅读

1 ·

CC 4.0 BY-SA版权

原文链接：http://blog.51cto.com/winters/1590683

文章标签：

#python #java

本文介绍了高效处理大文件的多种方法，包括快速计算文件行数、读取特定行内容等，并对比了不同方法的优劣。

一、计算文件的行数

最简单的办法是把文件读入一个大的列表中,然后统计列表的长度.如果文件的路径是以参数的形式filepath传递的,那么只用一行代码就可以完成我们的需求了:

           count = len(open(filepath,'rU').readlines())

如果是非常大的文件,上面的方法可能很慢,甚至失效.此时,可以使用循环来处理:

           count = -1
           for count, line in enumerate(open(thefilepath, 'rU')):
                 pass
           count += 1

另外一种处理大文件比较快的方法是统计文件中换行符的个数'\n '(或者包含'\n'的字串,如在windows系统中):

           count = 0
           thefile = open(thefilepath, 'rb')
           while True:
                buffer = thefile.read(8192*1024)
         if not buffer:
            break
         count += buffer.count('\n')
   thefile.close( )

参数'rb'是必须的,否则在windows系统上,上面的代码会非常慢.