import re
filename=raw_input('input a filename,please ')
s=file(filename).read()
ss=s.replace('\n','')
ss=ss.replace(' ','')
ss=ss.replace('»','')
ss=re.sub("<!--.+?-->",' ',ss)
tem=re.sub("<.*?>",'',ss)
w=open('zip.txt','w')
w.write(tem)
w.close()
filename=raw_input('input a filename,please ')
s=file(filename).read()
ss=s.replace('\n','')
ss=ss.replace(' ','')
ss=ss.replace('»','')
ss=re.sub("<!--.+?-->",' ',ss)
tem=re.sub("<.*?>",'',ss)
w=open('zip.txt','w')
w.write(tem)
w.close()
本文介绍了一个简单的Python脚本,用于从HTML文件中移除标签和注释,以实现纯文本的提取。该脚本利用了基本的字符串操作和正则表达式来完成任务。
1153

被折叠的 条评论
为什么被折叠?



