Python基础教程(七十)内建模块之HTMLParser:解剖Python内建HTMLParser,高效解析网页的隐形利器

核心机制:事件驱动的解析

HTMLParser工作原理是逐字符扫描输入,识别到标签/文本时触发对应回调方法:

from html.parser import HTMLParser

class MyParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        print(f"开始标签: <{tag}>, 属性: {dict(attrs)}")
    
    def handle_data(self, data):
        if data.strip(): 
            print(f"文本内容: '{data.strip()}'")
    
    def handle_endtag(self, tag):
        print(f"结束标签: </{tag}>")

parser = MyParser()
parser.feed('<div class="header"><h1>标题</h1></div>')

实战示例:提取网页所有链接

class LinkExtractor(HTMLParser):
    def __init__(self):
        super().__init__()
        self.links = []
    
    def handle_starttag(self, tag, attrs):
        if tag == 'a':  # 仅处理<a>标签
            # 查找href属性 (attrs为元组列表: [(属性名, 值), ...])
            href = next((v for k, v in attrs if k == 'href'), None)
            if href:
       
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

值引力

持续创作,多谢支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值