import re
filename=raw_input('input a filename,please ')
s=file(filename).read()
ss=s.replace('\n','')
ss=ss.replace(' ','')
ss=ss.replace('»','')
ss=re.sub("<!--.+?-->",' ',ss)
tem=re.sub("<.*?>",'',ss)
w=open('zip.txt','w')
w.write(tem)
w.close()
filename=raw_input('input a filename,please ')
s=file(filename).read()
ss=s.replace('\n','')
ss=ss.replace(' ','')
ss=ss.replace('»','')
ss=re.sub("<!--.+?-->",' ',ss)
tem=re.sub("<.*?>",'',ss)
w=open('zip.txt','w')
w.write(tem)
w.close()
本文介绍了一个使用Python编写的简单脚本,该脚本可以读取文件内容并进行一系列的文本处理操作,包括去除换行符、空白字符及HTML标签等,最后将处理后的文本写入到新的文件中。
422

被折叠的 条评论
为什么被折叠?



