urllister.py源码分析

最新推荐文章于 2025-09-09 22:35:31 发布

Javahaoshuang3394

最新推荐文章于 2025-09-09 22:35:31 发布

阅读量637

点赞数

CC 4.0 BY-SA版权

文章标签： python import date class list url

本文链接：https://blog.youkuaiyun.com/Javahaoshuang3394/article/details/4207652

本文介绍了一个用于从网页中提取所有URL链接的Python程序。该程序利用了sgmllib库中的SGMLParser类来解析HTML内容，并通过自定义的URLLister类来收集所有的链接地址。文中展示了如何使用urllib库读取指定网页并处理其内容。

"""Extract list of URLs in a web page

This program is part of "Dive Into Python", a free Python book for
experienced programmers. Visit http://diveintopython.org/ for the
latest version.
"""

__author__ = "Mark Pilgrim (mark@diveintopython.org)"
__version__ = "$Revision: 1.2 $"
__date__ = "$Date: 2004/05/05 21:57:19 $"
__copyright__ = "Copyright (c) 2001 Mark Pilgrim"
__license__ = "Python"

#声明四个字符串，并赋值

from sgmllib import SGMLParser

#导入SGMLParser类

class URLLister(SGMLParser):

#自定义一个新类URLLister

def reset(self):
SGMLParser.reset(self)

#调用SGMLParser的reset方法，重置类实例
self.urls = []

#初始化self的urls变量为空数组

def start_a(self, attrs):
href = [v for k, v in attrs if k=='href']
if href:
self.urls.extend(href)

#若href不为空，将href添加到urls中

if __name__ == "__main__":
import urllib
usock = urllib.urlopen("http://diveintopython.org/")

#调入urllib这个类，打开http://diveintopython.org/这个网址
parser = URLLister()

#获取类URLLister的实例，并赋给parser
parser.feed(usock.read())

#将usock读取的内容“喂给”parser
parser.close()

#关闭parser
usock.close()