11、Python 中的 HTML 处理与正则表达式应用

Python 中的 HTML 处理与正则表达式应用

1. 关于 SGMLParser 的一些说明

在处理 HTML 时,SGMLParser 是一个有用的工具。不过,对于一些返回值和 self.stack.append(tag) 操作,无需过度担忧。理论上这些返回值有其意义,但实际上并未被使用。SGMLParser 会在内部跟踪起始标签和结束标签是否平衡,但也不会对这些信息做进一步处理。虽然理论上可以用该模块验证标签是否完全平衡,但可能并不值得,且超出了当前讨论范围。

start_xxx do_xxx 方法并非直接调用,标签、方法和属性会传递给 handle_starttag 函数,以便子类可以重写该函数,改变起始标签的分发方式。若不需要这种高级控制,让该方法正常工作即可,它会使用属性列表调用相应方法。

2. 重写 handle_data 方法

在处理 <pre> </pre> 标签时,还需处理文本块的预定义替换。这就需要重写 handle_data 方法,示例代码如下:

def handle_data(self, text):
    self.pieces.append(self.verbatim and text or self.process(text))
  • hand
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值