介绍:此程序是使用python做的一个爬虫小程序 爬取了python百度百科中的部分内容,因为这个demo是根据网站中的静态结构爬取的,所以如果百度百科词条的html结构发生变化 需要修改部分内容。词条链接 http://baike.baidu.com/item/Python
逻辑步骤:1.主程序部分,主要初始化程序中需要用到的各个模块分为(1)链接管理模块。 (2)链接下载保存模块 (3)解析网页模块 (4)输出解析内容模块,然后就是写抓取网页内容的方法。
下边为爬取方法代码:
def craw(self, root_url): #抓取网页
count = 1
self.urls.add_new_url(root_url)
while self.urls.has_new_url(): #判断是否有新的网页抓取
try:
new_url = self.urls.get_new_url() #获取新的url