获取制定标签内容,以及HTML全部文本
代码
# -*- coding: utf-8 -*- import re html = "<html><div><p>岗位职责:</p><p>完成推荐算法、数据统计、接口、后台等服务器端相关工作</p><p><br></p><p>必备要求:</p><p>良好的自我驱动力和职业素养,工作积极主动、结果导向</p></div></html>" #获得全部文本 dr = re.compile(r'<[^>]+>',re.S) dd = dr.sub('',html) print(dd) print("*"*20) #取出p标签中的文本 html_regex = r".*?<p>(.*?)</p>" result1 = re.findall(html_regex, html) print(result1)