Python文件操作的性能之道，buffered读写机制

字节自动化测试

于 2025-02-28 15:32:58 发布

阅读量897

点赞数 11

分类专栏：程序员自动化测试软件测试文章标签： python 开发语言深度学习面试职场经验自动化测试 buffered读写机制

本文链接：https://blog.youkuaiyun.com/software_test010/article/details/145930141

版权

程序员同时被 3 个专栏收录

1453 篇文章

订阅专栏

软件测试

1448 篇文章

订阅专栏

自动化测试

855 篇文章

订阅专栏

📝 面试求职： 「面试试题小程序」，内容涵盖测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试，命中率杠杠的。（大家刷起来…）

📝 职场经验干货：

软件测试工程师简历上如何编写个人信息（一周8个面试）

软件测试工程师简历上如何编写专业技能（一周8个面试）

软件测试工程师简历上如何编写项目经验（一周8个面试）

软件测试工程师简历上如何编写个人荣誉（一周8个面试）

软件测试行情分享（这些都不了解就别贸然冲了.）

软件测试面试重点，搞清楚这些轻松拿到年薪30W+

软件测试面试刷题小程序免费使用（永久使用）

文件输入输出（IO）操作是几乎所有程序中不可或缺的部分，Python提供了强大而灵活的文件处理能力。在Python的文件IO系统中，缓冲（buffered）读写机制扮演着重要角色，它直接影响着程序的性能和效率。本文将深入探讨Python中的buffered读写机制，帮助开发者理解其工作原理并有效应用。

文件IO基础与缓冲区概念

在计算机系统中，文件操作涉及与磁盘等外部存储设备的交互，这些交互往往比内存操作慢几个数量级。为了优化性能，系统引入了缓冲区（buffer）的概念，作为内存和外部设备之间的中间层。

缓冲区是内存中的一块区域，用于临时存储数据。当程序需要写入数据时，数据首先被放入缓冲区，当缓冲区达到一定大小或满足特定条件时，才会一次性写入磁盘。同样，读取时也会一次性读取较大块的数据到缓冲区，然后程序可以从缓冲区逐步获取数据。这种机制大大减少了实际的磁盘IO操作次数，提高了程序效率。

Python的文件IO系统默认使用缓冲区机制。先了解Python中基本的文件操作：

# 写入文件（使用默认缓冲机制）
with open('example.txt', 'w') as f:
    f.write('Hello, world!')

# 读取文件（使用默认缓冲机制）
with open('example.txt', 'r') as f:
    content = f.read()
    print(content)  # 输出: Hello, world!

上面的代码看似简单，但背后涉及多层抽象和缓冲机制。Python的open()函数默认创建一个buffered文件对象，它封装了底层的IO操作和缓冲逻辑。

Python的IO层次结构

Python的IO系统采用分层设计，主要包括三个层次：

Raw IO：最底层，直接与操作系统的文件描述符交互，不提供缓冲
Buffered IO：中间层，在Raw IO基础上提供缓冲功能
Text IO：最上层，处理文本编码和解码，建立在Buffered IO之上

当使用open()函数时，根据参数不同，会创建不同类型的文件对象：

# 创建文本文件对象（默认）
f_text = open('file.txt', 'r')  # TextIOWrapper对象，有缓冲

# 创建二进制文件对象
f_binary = open('file.bin', 'rb')  # BufferedReader对象，有缓冲

# 创建无缓冲的原始文件对象
f_raw = open('file.dat', 'rb', buffering=0)  # FileIO对象，无缓冲

这些不同类型的文件对象在io模块中定义，可以通过查看对象类型来确认：

import io

with open('example.txt', 'r') as f:
    print(type(f))  # <class '_io.TextIOWrapper'>
    
with open('example.txt', 'rb') as f:
    print(type(f))  # <class '_io.BufferedReader'>
    
with open('example.txt', 'rb', buffering=0) as f:
    print(type(f))  # <class '_io.FileIO'>

缓冲区模式与大小控制

Python可以控制文件的缓冲模式和缓冲区大小。open()函数的buffering参数用于指定缓冲策略：

buffering = -1：使用默认缓冲策略。文本文件使用行缓冲，二进制文件使用固定大小缓冲
buffering = 0：关闭缓冲（仅对二进制模式有效）
buffering = 1：使用行缓冲，遇到换行符时刷新缓冲区（仅对文本模式有效）
buffering > 1：使用指定大小（字节数）的固定大小缓冲

以下是控制缓冲区的几个例子：

# 使用默认缓冲策略
f_default = open('file.txt', 'w', buffering=-1)

# 无缓冲（仅二进制模式）
f_no_buffer = open('file.bin', 'wb', buffering=0)

# 行缓冲（仅文本模式）
f_line_buffer = open('file.txt', 'w', buffering=1)

# 8192字节的固定大小缓冲
f_custom_buffer = open('file.bin', 'wb', buffering=8192)

在实际应用中，根据需求选择合适的缓冲策略非常重要：

处理大型文件时，较大的缓冲区可以提高性能
需要实时处理数据流时，可能需要较小的缓冲区或行缓冲
对于关键数据，可能需要频繁刷新缓冲区以确保数据及时写入磁盘

缓冲区刷新与数据同步

缓冲区中的数据并不会立即写入磁盘，而是在特定条件下才会刷新（flush）到磁盘。了解这些条件以及如何手动控制刷新操作对于开发稳定可靠的程序至关重要。

缓冲区在以下情况会自动刷新：

缓冲区满了
文件被正常关闭（如使用close()方法或退出with块）
在行缓冲模式下遇到换行符
程序正常退出

此外，可以使用flush()方法手动刷新缓冲区：

with open('important_data.txt', 'w') as f:
    f.write('关键数据')
    f.flush()  # 立即将数据写入磁盘
    # 继续其他操作...

在处理关键数据或需要确保数据及时持久化的场景中，手动刷新非常有用。例如，日志记录系统通常需要确保日志信息及时写入文件：

def log_event(message):
    with open('app.log', 'a') as log_file:
        log_file.write(f"{time.strftime('%Y-%m-%d %H:%M:%S')} - {message}\n")
        log_file.flush()  # 确保日志立即写入磁盘

需要注意的是，虽然flush()方法将数据从Python的缓冲区写入操作系统的缓冲区，但可能还需要额外步骤确保数据写入磁盘。os.fsync()函数可以强制操作系统将数据同步到物理存储：

import os

with open('critical_data.txt', 'w') as f:
    f.write('非常重要的数据')
    f.flush()
    os.fsync(f.fileno())  # 确保数据物理写入磁盘

Buffered IO实现原理

要深入理解Python的缓冲IO机制，我们需要了解其内部实现。Python的IO系统使用C语言实现，位于CPython源代码的Modules/_io目录中。

从Python代码层面，可以使用io模块直接访问不同IO类：

import io

# 创建一个内存中的文件对象（用于测试）
buffer = io.BytesIO()  # 二进制缓冲
buffer.write(b'Hello')
buffer.write(b', World!')
buffer.seek(0)  # 回到开始位置
print(buffer.read())  # 输出: b'Hello, World!'

# 文本IO在二进制IO上添加编码层
text_buffer = io.StringIO()  # 文本缓冲
text_buffer.write('你好，世界！')
text_buffer.seek(0)
print(text_buffer.read())  # 输出: 你好，世界！

Buffered IO的主要类包括：

BufferedReader：提供缓冲读取功能
BufferedWriter：提供缓冲写入功能
BufferedRandom：提供缓冲读写功能
BufferedIOBase：所有缓冲IO类的抽象基类

这些类封装了原始IO对象，并在其上添加了缓冲功能：

import io

# 创建一个原始文件对象
raw_file = open('example.bin', 'rb', buffering=0)

# 手动添加缓冲层
buffered_file = io.BufferedReader(raw_file, buffer_size=8192)

# 现在可以使用带缓冲的文件对象
data = buffered_file.read(100)
buffered_file.close()

实际应用场景

1、大文件读写

当处理大文件时，缓冲区大小对性能影响显著。以下是一个比较不同缓冲区大小下写入性能的例子：

import time
import os

# 测试不同缓冲区大小的写入性能
def test_write_performance(filename, buffer_size, data_size):
    # 准备测试数据
    data = b'x' * 1024  # 1KB的数据
    
    start_time = time.time()
    
    with open(filename, 'wb', buffering=buffer_size) as f:
        for _ in range(data_size // 1024):  # 写入指定大小的数据
            f.write(data)
    
    end_time = time.time()
    elapsed = end_time - start_time
    
    # 删除测试文件
    os.remove(filename)
    
    return elapsed

# 测试不同缓冲区大小
data_size = 100 * 1024 * 1024  # 100MB
buffer_sizes = [0, 4096, 8192, 16384, 32768, 65536]

for size in buffer_sizes:
    if size == 0:
        print(f"无缓冲: ", end="")
    else:
        print(f"缓冲区大小 {size} 字节: ", end="")
    
    elapsed = test_write_performance(f'test_{size}.bin', size, data_size)
    print(f"{elapsed:.4f} 秒, 速度: {data_size/elapsed/1024/1024:.2f} MB/s")

运行结果可能如下（结果会因系统而异）：

无缓冲: 1.2345 秒, 速度: 81.00 MB/s
缓冲区大小 4096 字节: 0.3456 秒, 速度: 289.35 MB/s
缓冲区大小 8192 字节: 0.3213 秒, 速度: 311.23 MB/s
缓冲区大小 16384 字节: 0.3187 秒, 速度: 313.77 MB/s
缓冲区大小 32768 字节: 0.3125 秒, 速度: 320.00 MB/s
缓冲区大小 65536 字节: 0.3112 秒, 速度: 321.34 MB/s

从结果可以看出，使用缓冲比不使用缓冲有显著性能提升，但缓冲区增大到一定程度后，性能提升不再明显。这是因为系统资源使用、内存分配和CPU缓存等因素的综合影响。

2、行处理场景

在处理文本文件时，逐行读取是常见需求。行缓冲对这类场景特别有用：

# 使用行缓冲写入
with open('lines.txt', 'w', buffering=1) as f:
    for i in range(1000000):
        f.write(f"Line {i}\n")  # 每次遇到换行符都会刷新缓冲区

# 逐行读取
line_count = 0
with open('lines.txt', 'r') as f:
    for line in f:  # 高效的逐行读取
        line_count += 1

print(f"总行数: {line_count}")

Python的文件对象针对逐行读取做了优化，即使是大文件，逐行读取也非常高效且内存友好。

3、实时数据处理

某些应用场景需要实时处理数据，例如日志监控系统。在这种情况下，无缓冲或行缓冲可能更合适：

# 模拟日志监控器
def tail_log(log_file):
    with open(log_file, 'r', buffering=1) as f:
        # 移动到文件末尾
        f.seek(0, 2)
        
        while True:
            line = f.readline()
            if line:
                yield line
            else:
                time.sleep(0.1)  # 短暂休眠避免CPU占用过高

# 使用示例
for log_line in tail_log('application.log'):
    print(f"新日志: {log_line.strip()}")
    # 处理新日志行...
    
    # 在实际应用中，会有某种中断机制

这种实现类似于Linux中的tail -f命令，可以实时监控文件变化。行缓冲确保新写入的行能够及时被检测到。

总结

Python的文件IO系统采用缓冲区机制，在内存和磁盘之间设立中间层，显著优化IO操作性能。这一机制基于分层架构设计，包括底层的Raw IO、中间的Buffered IO和上层的Text IO。缓冲区通过减少实际磁盘操作次数，提高了读写效率。Python的open()函数通过buffering参数支持多种缓冲策略：默认缓冲(-1)、无缓冲(0)、行缓冲(1)和指定大小缓冲(>1)。

缓冲区数据在特定条件下自动刷新，也可通过flush()方法手动控制。实际应用中，不同场景需选择合适的缓冲策略：大文件处理适合大缓冲区，实时数据处理可能需小缓冲区或行缓冲。合理管理文件资源、正确选择文件模式和编码，以及采用适当的读写策略，对编写高效稳定的文件处理代码至关重要。

如果你觉得文章还不错，请大家点赞、分享、留言下，因为这将是我持续输出更多优质文章的最强动力！

最后： 下方这份完整的软件测试视频教程已经整理上传完成，需要的朋友们可以自行领取【保证100%免费】
在这里插入图片描述