python：去除HTML中标签

原创已于 2024-01-26 14:24:23 修改 · 763 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #正则表达式 #html

于 2020-09-02 14:56:10 首次发布

Python日常专栏收录该内容

29 篇文章

订阅专栏

本文介绍如何利用Python的正则表达式模块re来去除HTML标签，提取文本内容。通过两种方法演示了如何从HTML字符串中提取纯文本，一种是使用sub方法替换所有HTML标签为空，另一种是使用findall方法匹配所有标签之间的文本。

import re
html = '<div class="desc">累计签到获取，不积跬步，无以至千里，继续坚持！</div>'

# 方法1
pat = re.compile('<[^>]+>', re.S)
print(pat.sub('', html))
# Out[4]: 累计签到获取，不积跬步，无以至千里，继续坚持！

# 方法2
pat = re.compile('>(.*?)<')
print(''.join(pat.findall(html)))
# Out[5]: 累计签到获取，不积跬步，无以至千里，继续坚持！