在python中逐行读取大文件

本文探讨了两种Python读取文件的方法。方式一是使用`with`语句,适合处理大文件,自动关闭文件流并进行异常处理,但受限于内存。方式二是利用`yield`实现迭代,尤其适用于大文件中按特定字符分割的情况,但速度较慢。选择哪种方式取决于具体需求和文件结构。

方式一:

with open('file_name', 'r') as file:
    for line in file:
        print line

优点:

with语句,文件对象在执行完代码块退出后自动关闭文件流,文件读取数据发生异常,进行异常捕获处理

对文件对象进行迭代时,在内部,它会缓冲IO(针对昂贵的IO操作进行优化)和内存管理,所以不必担心大文件。

这才是 Pythonci 最完美的方式,既高效又快速

缺点:每一行的数据内容不能大于内存大小,否则就会造成MemoryError

方式二:使用yield
正常情况使用上面这种方式就可以了,But,如果遇到整个文件只有一行,而且按照特定的字符进行分割,上面这种方式则不行了,这时候yield就非常有用了。

举个栗子,log的形式是这样子的。

2018-06-18 16:12:08,289 - main - DEBUG - Do something{|}……

以{|}做为分割符。

def read_line(filename, split, size):
    with open(filename, 'r+') as file:
        buff = ''
        while True:
            while split in buff:
                position = buff.index(split)
                yield buff[:position]
                buff = buff[(position +len(split)):]
            chunk = file.read(size)
            if not chunk:
                yield buff
                break
            buff = buff +chunk

优点:不在限制每行数据的大小,即使整个大文件只有一行。
缺点:速度比上面这种方式要慢。
解析一下:

首先:定义一个缓冲区buff

循环判断,如果split分割符在缓冲区buff,则进行查找分割符出现的位置,并yield回去。

将buff更新,继续第二步

如果split分割符不在缓冲区buff,则read(size)个字符

如果chunk为空,则跳出循环,否则更新buff, 继续第二步

所以我们需要使用那种方式呢,一般来说使用用第一种就可以了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值