Python实战:批量修改文本文件
sub方法、listdir方法、with open as 函数的实战用法
一、需求:
目前我们有一个文件夹,里面有爬虫抓取的txt文档1000篇,但是由于抓取格式问题,每篇文章之后都有几行相同的乱码现在我们需要写一个程序去掉其中的乱码
所以我们需要:读文件目录,遍历其中文件,替换字段三个操作。其中替换字段是核心操作
二、功能拆解
第一步:设计一个用于字符串替换的正则表达式。——(调用re.sub()方法)
第二步:对文件和对文件目录操作(或者用已有的目录表格操作)——with open as 语句、同时涉及读写文档
第三步:遍历文件,进行操作——os模块的os.listdir()方法os.getcwd()方法、循环(迭代器)、自定义函数
三、过程
第一步:设计一个可以修改字符串的程序
假设已知我们已经知道处理符合复杂规则的字符串需要正则表达式和re模块
根据需求,我们需要调用re.sub()方法来进行字符串的替换
import re #使用sub首先要导入re模块
re.sub(pattern,"替换的字符",

本文介绍了如何使用Python的re模块和os模块批量处理文件夹中的txt文档,去除尾部乱码。通过re.sub()方法设计替换字符串的正则表达式,利用with open as语句读写文件,结合os.listdir()遍历文件夹,将清理内容的函数应用于每个文件。详细阐述了代码实现过程,包括文件读写、目录操作和函数封装,最后提供了open函数和sub函数的参数说明。
最低0.47元/天 解锁文章
1357

被折叠的 条评论
为什么被折叠?



