Python os.walk() 简介

本文详细介绍了Python中os.walk函数的使用方法,包括其参数解释、返回值说明及实际应用案例。通过具体示例展示了如何根据需要调整遍历顺序,并演示了如何在遍历过程中动态排除指定目录。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

os.walk目录遍历

每个月都有那么几天想划水,又到划水的日子了,今天分享的是刚在处理遍历目录相关用到的相关方法。

os.walk

os.walk的参数如下:

os.walk(top, topdown=True, onerror=None, followlinks=False)

其中:
- top是要遍历的目录。
- topdown是代表要从上而下遍历还是从下往上遍历。
- onerror可以用来设置当便利出现错误的处理函数(该函数接受一个OSError的实例作为参数),设置为空则不作处理。
- followlinks表示是否要跟随目录下的链接去继续遍历,要注意的是,os.walk不会记录已经遍历的目录,所以跟随链接遍历的话有可能一直循环调用下去。

os.walk返回的是一个3个元素的元组 (root, dirs, files) ,分别表示遍历的路径名,该路径下的目录列表和该路径下文件列表。注意目录列表和文件列表不是具体路径,需要具体路径(从root开始的路径)的话可以用 os.path.join(root,dir)os.path.join(root,dir)

例子

假设现在存在如下的文件和目录结构:

➜  test_os_walk git:(master) ✗ tree
.
├── a.py
├── b.py
├── c.py
├── dir1
│   ├── dir4
│   │   ├── g.py
│   │   └── h.py
│   ├── dirx
│   │   ├── diry
│   │   │   └── k.py
│   │   └── z.py
│   ├── e.py
│   ├── f.py
│   └── g.py
├── dir2
│   ├── dira
│   │   └── dirb
│   │       └── dirc
│   │           └── aha.py
│   ├── k.py
│   ├── l.py
│   └── m.py
└── dir3
    ├── dir5
    │   └── z.py
    ├── x.py
    └── y.py

10 directories, 17 files

测试topdown

当我用 os.walk 遍历这个目录时,程序和输出如下:

import os

path = '/Users/nisen/Projects/python_advanced_class/test/test_os_walk'

for root, dirs, files in os.walk(path, True):
    print 'root: %s' % root
    print 'dirs: %s' % dirs
    print 'files: %s' % files
    print ''

结果如下,从root的路径可以看出遍历是自上而下的:

➜  test git:(master) ✗ python test11.py
root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk
dirs: ['dir1', 'dir2', 'dir3']
files: ['a.py', 'b.py', 'c.py']

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir1
dirs: ['dir4', 'dirx']
files: ['e.py', 'f.py', 'g.py']

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir1/dir4
dirs: []
files: ['g.py', 'h.py']

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir1/dirx
dirs: ['diry']
files: ['z.py']

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir1/dirx/diry
dirs: []
files: ['k.py']

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir2
dirs: ['dira']
files: ['k.py', 'l.py', 'm.py']

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir2/dira
dirs: ['dirb']
files: []

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir2/dira/dirb
dirs: ['dirc']
files: []

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir2/dira/dirb/dirc
dirs: []
files: ['aha.py']

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir3
dirs: ['dir5']
files: ['x.py', 'y.py']

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir3/dir5
dirs: []
files: ['z.py']

而当设置os.walk的topdown为False时,结果如下, 可以看出他是自上而下遍历的:

➜  test git:(master) ✗ python test11.py
root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir1/dir4
dirs: []
files: ['g.py', 'h.py']

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir1/dirx/diry
dirs: []
files: ['k.py']

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir1/dirx
dirs: ['diry']
files: ['z.py']

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir1
dirs: ['dir4', 'dirx']
files: ['e.py', 'f.py', 'g.py']

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir2/dira/dirb/dirc
dirs: []
files: ['aha.py']

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir2/dira/dirb
dirs: ['dirc']
files: []

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir2/dira
dirs: ['dirb']
files: []

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir2
dirs: ['dira']
files: ['k.py', 'l.py', 'm.py']

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir3/dir5
dirs: []
files: ['z.py']

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk/dir3
dirs: ['dir5']
files: ['x.py', 'y.py']

root: /Users/nisen/Projects/python_advanced_class/test/test_os_walk
dirs: ['dir1', 'dir2', 'dir3']
files: ['a.py', 'b.py', 'c.py']

运行时修改遍历目录

当topdown设置为True时,可以在处理时修改返回的 dirs 列表,这样可以遍历下面的目录时会根据修改后的 dirs 来遍历。比如下面的例子,在遍历的时候不把”CSV”目录包括在内:

import os
from os.path import join, getsize
for root, dirs, files in os.walk('python/Lib/email'):
    print root, "consumes",
    print sum(getsize(join(root, name)) for name in files),
    print "bytes in", len(files), "non-directory files"
    if 'CVS' in dirs:
        dirs.remove('CVS')  # don't visit CVS directories

参考资料

<think>好的,我现在要详细解释一下Python中的os.walk()函数。首先,我需要回忆这个函数的作用,它应该是用来遍历目录树的,对吧?用户可能想知道它的基本用法、参数以及返回的内容。 我记得os.walk()会生成目录中的文件名,通过遍历顶向下或底向上的方式。那它返回的是一个三元组,包含根目录、子目录列表和文件列表。可能需要具体说明每个部分的含义。 接下来,我应该考虑参数。topdown参数控制遍历顺序,默认为True,即先处理当前目录再处理子目录。如果设为False,就是自底向上。还有onerror和followlinks参数,但用户可能更关注基本用法,这些高级参数可以简要提到。 然后,使用场景的例子。比如统计文件夹大小、批量重命名文件、查找特定文件等。这些例子能帮助用户理解实际应用。 需要注意的问题,比如符号链接的处理,默认followlinks是False,如果设为True可能会有循环风险。还有处理权限问题时的异常处理,可能需要try-except块。 可能用户会遇到的常见错误,比如路径不存在,或者没有访问权限。这时候需要提醒他们检查路径是否正确,处理异常。 接下来,我需要组织这些信息,结构清晰。先介绍函数的作用,然后参数详解,返回值解释,接着给出示例代码,说明每个步骤,最后注意事项和常见应用场景。 在示例代码部分,最好展示一个简单的遍历,并打印目录结构。比如从某个路径开始,遍历所有子目录和文件,输出它们的路径。这样用户可以直接运行代码看效果。 还要提到在Python的不同版本中是否有变化,但os.walk()Python2和3中的表现应该是一致的,可能不需要特别说明版本差异。 最后,确保使用中文,避免专业术语过于晦涩,用通俗的语言解释。同时检查LaTeX格式是否正确,不过在这个问题中可能用不到数学公式,但如果有变量名之类的,可以用行内代码标记。 总结一下,回答的结构应该是: 1. 函数作用 2. 参数说明 3. 返回值 4. 示例代码 5. 注意事项 6. 应用场景 这样用户能一步步理解os.walk()的使用方法,并且知道如何应用到实际项目中。</think>Python中的`os.walk()`是一个用于遍历目录树的实用函数,它可以帮助你递归访问指定路径下的所有子目录和文件。以下是逐步说明: --- ### **1. 函数作用** - **遍历目录**:从给定的根目录开始,逐层访问所有子目录。 - **获取信息**:返回每个目录下的子目录列表和文件列表。 - **灵活控制**:支持自上而下(默认)或自底向上的遍历顺序。 --- ### **2. 参数说明** ```python os.walk(top, topdown=True, onerror=None, followlinks=False) ``` - `top`:要遍历的根目录路径(字符串类型)。 - `topdown`(可选): - 若为`True`(默认),先处理当前目录,再处理子目录(自上而下)。 - 若为`False`,先处理子目录,最后处理当前目录(自底向上)。 - `onerror`(可选):处理遍历时的异常的回调函数。 - `followlinks`(可选):若为`True`,会跟踪符号链接目录(默认`False`)。 --- ### **3. 返回值** 生成一个包含三元组的生成器 `(root, dirs, files)`: - `root`:当前正在访问的目录路径(字符串)。 - `dirs`:当前目录下的子目录名列表(不包含完整路径)。 - `files`:当前目录下的文件名列表(不包含完整路径)。 --- ### **4. 示例代码** ```python import os # 遍历当前目录下的所有文件和子目录 for root, dirs, files in os.walk("."): print(f"当前目录:{root}") print(f"子目录:{dirs}") print(f"文件:{files}") print("---") ``` --- ### **5. 注意事项** - **符号链接**:默认不跟踪符号链接(避免循环遍历风险),需显式设置`followlinks=True`。 - **修改`dirs`列表**:遍历时若直接修改`dirs`列表,可控制后续遍历的子目录(例如跳过某些文件夹): ```python for root, dirs, files in os.walk("."): if "skip_this_dir" in dirs: dirs.remove("skip_this_dir") # 跳过名为 "skip_this_dir" 的目录 ``` - **性能**:遍历大型目录时可能较慢,建议避免在循环内执行复杂操作。 - **异常处理**:若目录无访问权限,会触发`PermissionError`,需通过`onerror`参数处理。 --- ### **6. 常见应用场景** - **统计文件数量**: ```python file_count = 0 for root, dirs, files in os.walk("."): file_count += len(files) print(f"总文件数:{file_count}") ``` - **查找特定文件**: ```python target_files = [] for root, dirs, files in os.walk("."): for file in files: if file.endswith(".txt"): target_files.append(os.path.join(root, file)) ``` - **批量重命名文件**:遍历文件并修改名称(需谨慎操作)。 --- 通过`os.walk()`,你可以高效地操作复杂的目录结构,适用于文件管理、数据分析等场景。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值