python爬虫实验

最新推荐文章于 2023-08-02 23:04:15 发布

转载最新推荐文章于 2023-08-02 23:04:15 发布 · 267 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/xiaoCon/p/3160657.html

文章标签：

#爬虫 #python

那天在新浪微博上看到北北出的题目，由于最近也在做类似的爬虫研究，所以就有了这个实验。

后来在QQ上和北北说了下，要求是啥都抓，就抓乌云的。。。

然后就开始了。。

第一个版本如下，后续不断改进直到满足需求：

import urllib2;
from sgmllib import SGMLParser;

class CatCh(SGMLParser):
   def reset(self):
      self.url=[]
      SGMLParser.reset(self)
   def  start_a(self,attrs):
      href = [v for k, v in attrs if k == 'href']
      if href:
         self.url.extend(href)

content = urllib2.urlopen("http://wooyun.org/").read()
catch=CatCh()
catch.feed(content)
for item in catch.url:
      print item