# -*- coding: utf-8 -*-
import os
import codecs
def search(filepath):
#遍历filepath下所有文件,包括子目录
files = os.listdir(filepath)
for file in files:
file_text = os.path.join(filepath,file)
if os.path.isdir(file_text):
search(file_text)
else:
path = os.path.join(filepath,file_text)
print path
with codecs.open(path,'r','utf-8')as file:
lines = [line.strip() for line in file]
#print text
print lines
#递归遍历/root目录下所有文件
search(r'C:\Users\ME\Desktop\Python project\pachong\scrapy\baichuan2\baoxian')
#注意前面的r,如果没有,有些\需要转义,如\t,\b,\n
例如search('C:\Users\ME\Desktop\Python project\pachong\scrapy\\baichuan2\\baoxian')
运行,就会得到以下的结果

本文介绍了使用Python OS库遍历文件夹中的文本内容,特别是处理中文标题的问题,以及在Python2和Python3中不同的编码方式。文章详细列举了OS库的常用函数,如os.sep获取目录分隔符,os.getcwd()获取当前工作目录,os.listdir()列出目录内容,os.remove()删除文件,并涉及到环境变量的操作。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



