Python 中的 HTML 处理与正则表达式应用
1. 关于 SGMLParser 的一些说明
在处理 HTML 时,SGMLParser 是一个有用的工具。不过,对于一些返回值和 self.stack.append(tag) 操作,无需过度担忧。理论上这些返回值有其意义,但实际上并未被使用。SGMLParser 会在内部跟踪起始标签和结束标签是否平衡,但也不会对这些信息做进一步处理。虽然理论上可以用该模块验证标签是否完全平衡,但可能并不值得,且超出了当前讨论范围。
start_xxx 和 do_xxx 方法并非直接调用,标签、方法和属性会传递给 handle_starttag 函数,以便子类可以重写该函数,改变起始标签的分发方式。若不需要这种高级控制,让该方法正常工作即可,它会使用属性列表调用相应方法。
2. 重写 handle_data 方法
在处理 <pre> 和 </pre> 标签时,还需处理文本块的预定义替换。这就需要重写 handle_data 方法,示例代码如下:
def handle_data(self, text):
self.pieces.append(self.verbatim and text or self.process(text))
-
hand
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



