Python网络数据处理与编码模块详解
1. HTMLParser模块
1.1 概述
HTMLParser模块定义了一个名为HTMLParser的类,可用于解析HTML和XHTML文档。要使用该模块,需定义一个继承自HTMLParser的自定义类,并根据需要重新定义方法。
1.2 类与方法
- HTMLParser() :用于创建HTML解析器的基类,初始化时无需参数。
- 实例方法 :
| 方法 | 描述 |
| — | — |
|h.close()| 关闭解析器,处理剩余未解析的数据,在所有HTML数据都提供给解析器后调用。 |
|h.feed(data)| 向解析器提供新数据,数据将立即解析。若数据不完整,不完整部分将被缓冲,下次调用feed()时继续解析。 |
|h.getpos()| 返回当前行号和该行中的字符偏移量,以元组(line, offset)形式返回。 |
|h.get_starttag_text()| 返回最近打开的开始标签对应的文本。 |
|h.handle_charref(name)| 遇到字符引用(如&#ref;)时调用,name是引用名称的字
超级会员免费看
订阅专栏 解锁全文

110

被折叠的 条评论
为什么被折叠?



