Python爬虫伪装

最新推荐文章于 2025-06-06 10:23:04 发布

原创最新推荐文章于 2025-06-06 10:23:04 发布 · 1.1k 阅读

3 ·

CC 4.0 BY-SA版权

Python相关专栏收录该内容

29 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

1. 概述

在爬取某些网页过程中网站服务器限制了网络爬虫的访问，因而在获取其页面内容的时候会报错。这时就需要对爬虫的访问进行伪装模仿浏览器访问，这样便可以正常访问。在本文中将使用一个简单的例子来做说明（注：这里使用的网址仅仅作为测试使用不含任何恶意攻击和商业使用）

2. 实现

# -*- coding=utf-8 -*-

import urllib2 as url_lib2    # 网络库
import urllib as url_lib

url_str = 'http://www.qiushibaike.com/text/'
headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36"}
try:
    request = url_lib2.Request(url_str, headers=headers)
    page = url_lib2.urlopen(request).read()
    print page
except url_lib2.URLError, ex:
    print(ex.reason)
    print(ex.errno)