Python_API_Structured Markup Processing Tools_sgmllib.SGMLParser.reset

本文深入解析SGMLParser的reset方法,详细解释其作用,并通过实例演示如何在URLLister类中使用reset方法来实现URL抓取功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

API文档:

SGMLParser.reset()

     Reset the instance. Loses all unprocessed data. This is called implicitly at instantiation time.

翻译文档:

    reset有SGMLParser的__init__调用,在reset进行初始化的工作。

例子:

#! /usr/bin/env python
#coding=utf-8

from sgmllib import SGMLParser

class URLLister(SGMLParser):
    def reset(self):
        SGMLParser.reset(self)
        self.urls=[]

    
    def start_a(self,attrs):
        href = [v for k,v in attrs if k=='href']
        if href:
            self.urls.extend(href)
             

import urllib

usock = urllib.urlopen('http://www.baidu.com')
parser = URLLister()
parser.feed(usock.read())

usock.close()
parser.close()


for url in parser.urls:
    print url







评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值