Python实战:批量修改文本文件
sub方法、listdir方法、with open as 函数的实战用法
一、需求:
目前我们有一个文件夹,里面有爬虫抓取的txt文档1000篇,但是由于抓取格式问题,每篇文章之后都有几行相同的乱码现在我们需要写一个程序去掉其中的乱码
所以我们需要:读文件目录,遍历其中文件,替换字段三个操作。其中替换字段是核心操作
二、功能拆解
第一步:设计一个用于字符串替换的正则表达式。——(调用re.sub()
方法)
第二步:对文件和对文件目录操作(或者用已有的目录表格操作)——with open as
语句、同时涉及读写文档
第三步:遍历文件,进行操作——os模块的os.listdir()
方法os.getcwd()
方法、循环(迭代器)、自定义函数
三、过程
第一步:设计一个可以修改字符串的程序
假设已知我们已经知道处理符合复杂规则的字符串需要正则表达式和re模块
根据需求,我们需要调用re.sub()方法来进行字符串的替换
import re #使用sub首先要导入re模块
re.sub(pattern,"替换的字符",