import re
html = '<div class="desc">累计签到获取,不积跬步,无以至千里,继续坚持!</div>'
# 方法1
pat = re.compile('<[^>]+>', re.S)
print(pat.sub('', html))
# Out[4]: 累计签到获取,不积跬步,无以至千里,继续坚持!
# 方法2
pat = re.compile('>(.*?)<')
print(''.join(pat.findall(html)))
# Out[5]: 累计签到获取,不积跬步,无以至千里,继续坚持!
python:去除HTML中标签
于 2020-09-02 14:56:10 首次发布
本文介绍如何利用Python的正则表达式模块re来去除HTML标签,提取文本内容。通过两种方法演示了如何从HTML字符串中提取纯文本,一种是使用sub方法替换所有HTML标签为空,另一种是使用findall方法匹配所有标签之间的文本。
1187

被折叠的 条评论
为什么被折叠?



