爬网页哦

 1 # -*- coding: UTF-8-*- 
 2 import urllib2,re
 3 
 4 mylist = []
 5 
 6 p = re.compile( r"<a.+?href=.+?>.+?</a>")
 7 pname = re.compile( r"(?<=>).*?(?=</a>)" )
 8 phref = re.compile( r"(?<=href\=\")http.*?(?=\")")
 9 
10 html_c = urllib2.urlopen("http://www.baidu.com/?vit=1").read()
11 
12 def geturltest(str):
13     html_c = urllib2.urlopen(str).read()
14     arr = p.findall(html_c)
15     for ever in arr:
16         con = phref.findall(ever)
17         if len(con) > 0:
18             print con[0]
19         
20 def geturl(str):
21     html_c = urllib2.urlopen(str).read()
22     arr = p.findall(html_c)
23     for ever in arr:
24         con = phref.findall(ever)
25         if len(con) == 0:
26             continue
27         else:
28             print con[0]
29             if mylist.__contains__(con[0]) == False:
30                 mylist.append(con[0])
31                 geturl(con[0])
32             else:
33                 pass
34 def main():
35     geturl("http://www.baidu.com/?vit=1")
36 
37 if __name__ == '__main__': main()

 

转载于:https://www.cnblogs.com/alephsoul-alephsoul/archive/2013/03/08/2949100.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值