HTMLParser类的定义及常用方法
类的定义
- HTMLParser主要是用来解析HTML文件(包括HTML中无效的标记)。
- 参数convert_charrefs表示是否将所有的字符引用自动转化为Unicode形式,Python3.5以后默认是True。
- HTMLParser可以接收相应的HTML内容,并进行解析,遇到HTML的标签会自动调用相应的handler(处理方法)来处理,用户需要自己创建相应的子类来继承HTMLParser,并且复写相应的handler方法。
- HTMLParser不会检查开始标签和结束标签是否是一对。
常用方法
实例应用
| 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 |
|
Python解析HTML页面:HTMLParser详解

本文介绍了Python的HTMLParser类,用于解析HTML文件,包括无效标记。讲解了HTMLParser类的定义、参数convert_charrefs的作用,以及如何创建子类并重写handler方法来处理HTML标签。此外,还提到了HTMLParser不会验证标签配对。
最低0.47元/天 解锁文章
2674

被折叠的 条评论
为什么被折叠?



