1. 概述
在爬取某些网页过程中网站服务器限制了网络爬虫的访问,因而在获取其页面内容的时候会报错。这时就需要对爬虫的访问进行伪装模仿浏览器访问,这样便可以正常访问。在本文中将使用一个简单的例子来做说明(注:这里使用的网址仅仅作为测试使用不含任何恶意攻击和商业使用)
2. 实现
# -*- coding=utf-8 -*-
import urllib2 as url_lib2 # 网络库
import urllib as url_lib
url_str = 'http://www.qiushibaike.com/text/'
headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36"}
try:
request = url_lib2.Request(url_str, headers=headers)
page = url_lib2.urlopen(request).read()
print page
except url_lib2.URLError, ex:
print(ex.reason)
print(ex.errno)
3. 结果
没有使用伪装,报错
使用了伪装可正常获取页面内容