1.常用正则表达式
Python中常用正则表达式
2.正则表达式做数据清洗
2.1 从网页HTML标签中提取文本
import re
text = "<div><p>\n你好\nPython:</p><p>Python是一种跨平台的计算机程序设计语言。 </p><p><br></p><p>是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。</p><p>最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。 </p><br><a>快来学习Python吧!</a></div>"
result = re.sub(r"<.*?>| |\n"