Python 实现 HTML 处理与文本转换
1. 引言
在 Python 编程中,处理 HTML 文档是常见需求,如列出 HTML 文档中的所有标题、图片、链接,解析或转换文本内容,批量添加、移除或引用 HTML 标签的属性等。下面将介绍相关的实现方法和代码示例。
2. 完整的 Python 程序示例
有一个完整的 Python 程序分为两部分: BaseHTMLProcessor.py 和 dialect.py 。
- BaseHTMLProcessor.py 是一个通用工具,用于遍历 HTML 文件的标签和文本块来处理 HTML 文件。
- dialect.py 展示了如何使用 BaseHTMLProcessor.py 来转换 HTML 文档的文本内容,同时保持标签不变。
以下是 BaseHTMLProcessor.py 的代码:
from sgmllib import SGMLParser
import htmlentitydefs
class BaseHTMLProcessor(SGMLParser):
def reset(self):
# extend (called by SGMLParser.__init__)
self.pieces = []
SGMLParser.reset(self)
def
Python实现HTML处理与文本转换
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



