读取目录正则表达式用例

最新推荐文章于 2023-12-12 14:46:15 发布

原创最新推荐文章于 2023-12-12 14:46:15 发布 · 2.5k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#正则表达式 #regex #import #os

python学习记录专栏收录该内容

3 篇文章

订阅专栏

本文介绍了一个使用Python及正则表达式处理文件的脚本案例，该脚本能够遍历指定目录及其子目录下的文件，寻找以china开头且包含特定邮箱格式（如@...126.com或@...sina.com）的文本文件，并将其复制到指定的目标目录。

部署运行你感兴趣的模型镜像

import os, sys
import random
import re #引入正则表达式模块

inpudir = sys.argv[1]
outputDir = sys.argv[2]

names = ["@*126.com", "@*sina.com"]

subdirs = os.listdir(inputdir) #读取inputdir目录下所有子目录名

outputdir = os.path.join(inputdir, outputDir)

if(not(os.path.exists(outputdir))):
os.mkdir(outputdir) #在inputdir目录下新建子目录outputDir
fileNum = 1 #文件新名字

for subdir in subdirs:
     inputDir = os.path.join(inputDir, subdir)
     flist = os.listdir(inputDir) #分别读取子目录，将文件名存入flist
     count = len(flist) #count为文件数量
     for i in range(0, count):
          filepath = os.path.join(inputDir, flist[i])
          lines = open(filepath) #读取文件每一行，并存入lines中
          for line in lines.readlines():
               regex = "^china"
               if re.match(regex, line): #匹配是否以"china"开头
                    for j in range(0, 2):
                         if re.search(names[j], line): #查看是否含有"@...126.com" 或 "@... sina.com"的字符串
                              outputpath = os.path.join(outputdir, str(fileNum) + ".txt")
                              os.system("cp '%s' '%s'"%(filepath, outputpath)) #拷贝文件
                              fileNum += 1
                break
#结束