最近做文本聚类要扫描大量的文本,因此,需要遍历文件夹和子文件夹下面的大量文件,记录一下python是如何实现的。
# python遍历文件夹内所有文件,返回文件名即后缀
import os
for filename in os.listdir(r'/Users/John/Documents/NLPStudy/tc-corpus-train/C3-Art/'):
print filename
import glob # 可以设置文件过滤,输出为文件路径
for filename in glob.glob('/Users/John/Documents/NLPStudy/tc-corpus-train/C3-Art/*.txt'):
print filename
print '\n\n\n\n'
import os.path # 可以访问子文件夹,只返回文件名及后缀
def processDirectory(args, dirname, filenames):
print 'Directory', dirname
for filename in filenames:
print 'File', filename
os.path.walk(r'/Users/John/Documents/NLPStudy/tc-corpus-train/', processDirectory, None)
第三种方法可以遍历子文件夹,减少代码量,第二种方法可以输出全部的文件路径比较方便,自己取舍着用吧,里面的路径改成你自己的路径就可以了。