详解Python标准库之文件和目录访问

原创于 2025-07-31 10:09:35 发布 · 1k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#python #microsoft #windows

详解Python标准库专栏收录该内容

23 篇文章

订阅专栏

详解Python标准库之文件和目录访问

一、文件系统操作的Python生态：为何选择标准库？

在日常开发中，文件和目录的操作是绕不开的基础任务——从读取配置文件到批量处理数据，从创建临时缓存到比较文件差异，都需要与操作系统的文件系统交互。Python标准库通过一系列精心设计的模块，将复杂的系统调用封装为简洁的API，既保证了跨平台兼容性，又提供了从底层到高层的完整工具链。

本文将系统解析Python标准库中处理文件和目录的核心模块，包括面向对象路径处理的pathlib、经典路径工具os.path、高级文件操作的shutil，以及模式匹配、临时文件、文件比较等专项工具，帮助开发者在不同场景下选择最合适的工具。

二、路径处理的双重范式：`pathlib`与`os.path`

路径操作是文件处理的第一步，Python提供了两种风格的路径工具：面向对象的pathlib和函数式的os.path。

特性	`pathlib`（面向对象）	`os.path`（函数式）
语法风格	链式调用（如`p.parent.joinpath('file.txt')`）	函数嵌套（如`os.path.join(os.path.dirname(p), 'file.txt')`）
跨平台支持	自动处理路径分隔符（`/`统一兼容）	需要显式处理分隔符差异
可扩展性	支持继承和自定义路径类	基于函数组合，扩展需封装新函数
适用场景	复杂路径逻辑、可读性优先	简单路径操作、脚本兼容性优先

1. pathlib：现代路径处理的首选
pathlib是Python 3.4+引入的面向对象路径库，将路径视为对象而非字符串，大幅提升了代码的可读性和可维护性。

from pathlib import Path

# 基础路径创建
p = Path("/home/user/docs")

# 路径拼接（自动处理分隔符）
subfile = p / "report.txt"  # 等价于Path("/home/user/docs/report.txt")

# 路径属性查询
print(subfile.name)         # 文件名：report.txt
print(subfile.suffix)       # 扩展名：.txt
print(subfile.parent)       # 父目录：/home/user/docs
print(subfile.resolve())    # 绝对路径：/home/user/docs/report.txt

# 文件操作
if subfile.exists():
    print(subfile.read_text(encoding="utf-8"))  # 读取文本内容
else:
    subfile.write_text("Hello, pathlib!", encoding="utf-8")  # 写入文本

# 目录遍历
for child in p.iterdir():
    if child.is_file() and child.suffix == ".txt":
        print(f"Found text file: {child}")

2. os.path：传统路径工具的兼容选择
os.path作为经典模块，提供了一系列函数式工具，适合需要兼容旧版本Python的场景。

import os.path

p = "/home/user/docs/report.txt"

# 路径解析
print(os.path.dirname(p))   # 目录：/home/user/docs
print(os.path.basename(p))  # 文件名：report.txt
print(os.path.splitext(p))  # 分割扩展名：('/home/user/docs/report', '.txt')

# 路径拼接（跨平台安全）
new_path = os.path.join(os.path.dirname(p), "notes.txt")  # /home/user/docs/notes.txt

# 状态检查
print(os.path.exists(p))    # 是否存在：True/False
print(os.path.isdir(p))     # 是否为目录：False
print(os.path.getsize(p))   # 文件大小（字节）

选型建议：新项目优先使用pathlib的面向对象API，其链式调用和属性访问更直观；如需兼容Python 3.4以下版本或处理简单路径逻辑，os.path仍是可靠选择。

三、高级文件操作：`shutil`模块的威力

shutil模块提供了高层级的文件操作工具，封装了复制、移动、删除等复杂任务，尤其适合目录级操作。

1. 核心功能速览

文件复制：shutil.copy()（复制内容和权限）、shutil.copy2()（额外复制元数据）
目录操作：shutil.copytree()（递归复制目录）、shutil.rmtree()（递归删除目录）
文件移动：shutil.move()（跨设备移动时自动复制后删除）
归档处理：shutil.make_archive()（创建zip/tar等归档）、shutil.unpack_archive()（解压归档）

2. 实战示例

import shutil
from pathlib import Path

# 复制单个文件（保留元数据）
src_file = Path("data/report.txt")
dst_file = Path("backup/report_backup.txt")
shutil.copy2(src_file, dst_file)  # 等价于cp -p命令

# 递归复制目录（含过滤）
def ignore_pyc_files(src, names):
    return [name for name in names if name.endswith(".pyc")]

shutil.copytree(
    src="project/src",
    dst="project/src_backup",
    ignore=ignore_pyc_files,
    dirs_exist_ok=True  # Python 3.8+支持，避免目录已存在错误
)

# 安全删除目录（含只读文件）
shutil.rmtree(
    path="temp_cache",
    ignore_errors=False,
    onerror=lambda func, path, exc_info: Path(path).chmod(0o777)  # 处理权限问题
)

# 创建zip归档
shutil.make_archive(
    base_name="archive",
    format="zip",
    root_dir="data",
    base_dir="subdir"  # 仅归档data/subdir下的内容
)

注意事项：shutil.rmtree()操作不可逆，使用时务必添加确认机制；复制大文件时，可结合shutil.copyfileobj()和缓冲流提升性能。

四、模式匹配与批量处理：`glob`与`fnmatch`

在批量处理文件时，快速定位符合模式的文件是关键需求，glob和fnmatch模块提供了Unix风格的模式匹配能力。

1. glob：路径模式匹配
glob模块可根据通配符模式搜索文件，支持递归匹配（**）。

from glob import glob, iglob
from pathlib import Path

# 匹配当前目录下所有.txt文件
txt_files = glob("*.txt")  # 返回列表：['a.txt', 'b.txt']

# 递归匹配所有子目录的.log文件（Python 3.5+）
log_files = glob("**/*.log", recursive=True)  # 如['logs/1.log', 'data/debug.log']

# 惰性迭代（适合大量文件）
for csv_file in iglob("data/**/*.csv", recursive=True):
    print(f"Processing {csv_file}")

# Path对象也支持glob方法（推荐）
data_dir = Path("data")
excel_files = list(data_dir.glob("*.xlsx"))  # 返回Path对象列表

2. fnmatch：文件名模式匹配
fnmatch专注于文件名本身的匹配，不处理路径，常用于过滤文件列表。

import fnmatch
from pathlib import Path

all_files = [f.name for f in Path("docs").iterdir()]

# 匹配所有.md或.rst文件
doc_files = fnmatch.filter(all_files, "*.md") + fnmatch.filter(all_files, "*.rst")

# 大小写不敏感匹配
image_files = [f for f in all_files if fnmatch.fnmatchcase(f, "*.PNG")]  # 严格区分大小写

对比：glob更适合直接搜索文件系统，fnmatch适合对已有文件名列表进行过滤。两者均支持*（任意字符）、?（单个字符）、[seq]（序列中字符）等通配符。

五、临时文件与目录：`tempfile`的安全实践

处理临时数据时，tempfile模块提供了安全、自动清理的临时文件/目录创建工具，避免手动管理临时文件的繁琐和风险。

核心功能：

tempfile.TemporaryFile()：创建匿名临时文件（关闭后自动删除）
tempfile.NamedTemporaryFile()：创建具名临时文件（可被其他进程访问）
tempfile.TemporaryDirectory()：创建临时目录（上下文管理器退出时自动删除）

使用示例：

import tempfile
import json

# 临时文件（上下文管理器自动清理）
with tempfile.NamedTemporaryFile(
    mode="w+",
    encoding="utf-8",
    suffix=".json",
    delete=False  # 调试时可设为False保留文件
) as f:
    # 写入临时数据
    json.dump({"status": "processing"}, f)
    f.seek(0)  # 回到文件开头
    data = json.load(f)
    print(data)  # {'status': 'processing'}

# 临时目录（适合多文件协作）
with tempfile.TemporaryDirectory(prefix="work_") as tmpdir:
    tmp_path = Path(tmpdir)
    (tmp_path / "input.txt").write_text("temp data")
    (tmp_path / "output.txt").write_text("processed")
    # 临时目录在with块结束后自动删除

安全优势：tempfile会自动选择系统临时目录（如Linux的/tmp），并生成随机文件名，避免路径遍历攻击；通过上下文管理器确保资源释放，即使程序崩溃也能触发清理（依赖操作系统）。

六、文件比较与信息查询：`filecmp`与`stat`

在需要验证文件一致性或获取详细文件属性时，filecmp和stat模块提供了专业工具。

1. filecmp：文件与目录比较
filecmp可比较单个文件、目录树，支持浅比较（仅校验大小和修改时间）和深比较（校验内容）。

import filecmp
from filecmp import dircmp

# 比较两个文件
if filecmp.cmp("file1.txt", "file2.txt", shallow=False):  # shallow=False强制内容比较
    print("文件内容相同")

# 比较目录
dc = dircmp("dir1", "dir2")
dc.report()  # 打印概要报告
dc.report_full_closure()  # 递归比较所有子目录

# 提取差异文件
print("只在dir1中的文件：", dc.left_only)
print("只在dir2中的文件：", dc.right_only)
print("内容不同的文件：", dc.diff_files)

2. stat：解析文件元数据
stat模块用于解析os.stat()返回的文件状态信息，获取详细属性（如权限、创建时间、文件类型）。

import os
import stat
from datetime import datetime

file_path = "data.log"
stat_info = os.stat(file_path)

# 基本信息
print(f"大小：{stat_info.st_size}字节")
print(f"修改时间：{datetime.fromtimestamp(stat_info.st_mtime)}")

# 权限解析
if stat.S_ISREG(stat_info.st_mode):  # 判断是否为普通文件
    print("类型：普通文件")
if stat_info.st_mode & stat.S_IRUSR:  # 检查所有者读权限
    print("所有者有读权限")

# 权限位转换（如-rw-r--r--）
def get_file_permissions(mode):
    permissions = []
    for who in [stat.S_IRUSR, stat.S_IWUSR, stat.S_IXUSR]:  # 所有者权限
        permissions.append('r' if mode & who else '-')
    # 同理处理组权限和其他用户权限...
    return ''.join(permissions)

print(f"权限：{get_file_permissions(stat_info.st_mode)}")

七、其他实用工具

fileinput：迭代处理多个文件的行，支持标准输入，适合编写命令行文本处理工具。

import fileinput
for line in fileinput.input(files=["a.txt", "b.txt"], inplace=True):
    # inplace=True会将输出写回原文件
    print(line.replace("old", "new"), end="")

linecache：随机访问文本文件的行，避免一次性加载大文件到内存，常用于日志分析。

import linecache
line = linecache.getline("large_file.log", 1000)  # 获取第1000行
linecache.clearcache()  # 清理缓存释放内存

os与io：os模块提供底层文件描述符操作（如os.open()、os.read()），适合高性能场景；io模块提供抽象I/O接口（如io.BytesIO、io.StringIO），支持内存流操作。

八、最佳实践与性能优化

路径处理首选pathlib：其面向对象API减少字符串拼接错误，提升代码可读性。
大文件处理用流式操作：结合shutil.copyfileobj()和open(..., buffering=...)控制缓冲，避免内存溢出。
临时文件必用tempfile：切勿手动创建/tmp下的固定名称文件，防止权限问题和命名冲突。
批量操作优先glob递归匹配：glob("**/*.ext")比手动递归更简洁高效。
跨平台兼容性检查：使用os.path.sep代替硬编码/或\，通过sys.platform判断操作系统特性。
权限处理需谨慎：修改文件权限时，避免使用0777等危险权限，遵循最小权限原则。

九、总结

Python标准库的文件和目录访问模块，从基础的路径解析到复杂的归档处理，从临时文件管理到批量模式匹配，形成了一套完整的工具链。选择合适的模块不仅能简化代码，更能提升安全性和跨平台兼容性。

路径处理：pathlib（现代） vs os.path（传统）
高级操作：shutil（复制/删除/归档）
模式匹配：glob（路径搜索） + fnmatch（列表过滤）
临时数据：tempfile（安全自动清理）
比较与信息：filecmp（内容比较） + stat（元数据解析）

掌握这些工具的关键在于理解其设计场景——没有万能模块，只有最适合当前任务的选择。例如，处理单文件用pathlib简洁高效，批量迁移目录则shutil更胜任，而复杂的文件同步可能需要组合filecmp和shutil。

通过灵活运用这些模块，开发者可以构建出既健壮又优雅的文件系统交互逻辑，轻松应对从简单脚本到大型应用的各种需求。

延伸资源：

Python官方文档：文件和目录访问
pathlib进阶：PEP 428 – The pathlib module – object-oriented filesystem paths
跨平台文件操作最佳实践：Python 3’s pathlib Module: Taming the File System

详解Python标准库之文件和目录访问

详解Python标准库之文件和目录访问

一、文件系统操作的Python生态：为何选择标准库？

二、路径处理的双重范式：pathlib与os.path

三、高级文件操作：shutil模块的威力

四、模式匹配与批量处理：glob与fnmatch

五、临时文件与目录：tempfile的安全实践

六、文件比较与信息查询：filecmp与stat

七、其他实用工具

八、最佳实践与性能优化

九、总结

二、路径处理的双重范式：`pathlib`与`os.path`

三、高级文件操作：`shutil`模块的威力

四、模式匹配与批量处理：`glob`与`fnmatch`

五、临时文件与目录：`tempfile`的安全实践

六、文件比较与信息查询：`filecmp`与`stat`