Python 中 HTML 与 XML 处理全解析
1. HTML 解析
在 Python 里,有多种方式可以对 HTML 进行解析,下面为大家介绍两种常用的方法。
1.1 使用 HTMLParser 解析 HTML
HTMLParser 是 Python 标准库中的一个模块,它提供了一些处理 HTML 的方法,不过其默认实现大多为空。以下是这些方法的详细介绍:
- handle_comment(comment) :用于处理注释, comment 是 <!--...--> 内的字符串,不包含分隔符。
- handle_data(data) :处理任意字符串数据,通常需要在子类中重写此方法。
- handle_endtag(tag) :处理结束标签, tag 为小写的标签字符串。
- handle_entityref(ref) :处理实体引用 &ref; 。
- handle_starttag(tag, attributes) :处理标签, tag 是小写的标签字符串, attributes 是一个由 (name, value) 对组成的列表。
下面是一个使用 HTMLParser 解析 HTML 并提取超链接的示例代码:
超级会员免费看
订阅专栏 解锁全文
2661

被折叠的 条评论
为什么被折叠?



