Python爬虫学习1

 1 #coding=utf-8
 2 from urllib2 import urlopen
 3 from bs4 import BeautifulSoup
 4 import urllib2
 5 url="http://pythonscraping.com/pages/page1.html"
 6 def getTitle(url):
 7     """
 8     说明一下,处理异常的过程
 9     1.检查是否能打开网页 异常类型为urllib2.HTTPError
10     2.检查是否服务器存在,不存在返回空,那么在read是返回AttributeError
11     :param url:
12     :return:
13     """
14     try:
15 
16         html=urlopen(url)
17     except urllib2.HTTPError as e:
18 #这里的错误是网页不存在
19         print e
20         return None
21     try:
22         bsobj=BeautifulSoup(html.read(),"html.parser")
23         title=bsobj.body.h1
24     except AttributeError as e:
25         return None
26     return title
27 title=getTitle(url)
28 if title is None:
29     print "Title could not be found"
30 else:
31     print title

 

转载于:https://www.cnblogs.com/dream-for/p/5932335.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值