Python爬虫基础教程（40）Python Scrapy爬虫框架实战：爬虫攻防之封锁User-Agent破解：Python爬虫攻防战：如何让Scrapy伪装成浏览器，轻松破解User-Agent封锁

最新推荐文章于 2025-11-25 15:56:53 发布

原创

最新推荐文章于 2025-11-25 15:56:53 发布 · 1.3k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #scrapy

还在为爬虫被网站封禁而烦恼？掌握这些User-Agent伪装技巧，让你的爬虫在网站眼皮底下“隐身”！

爬虫与反爬虫的“猫鼠游戏”

嘿，爬虫程序员！你是不是经常遇到这种情况：当你满怀信心地运行爬虫，准备抓取大量数据时，却发现请求被网站拒绝了？或者更糟，你的IP地址被彻底封禁？

这就像玩捉迷藏时，你穿着闪闪发光的衣服躲在一棵小树后面——网站管理员一眼就能发现你！

为什么网站能如此轻易地发现我们的爬虫？ 答案往往就藏在你的请求头中的一个小细节：User-Agent。

当我们用浏览器访问网站时，浏览器会悄悄给服务器发个“小名片”，这玩意儿就叫User-Agent，上面写着浏览器是什么、什么版本、操作系统是什么等等。但当我们用Python程序去请求网站时，同样会发送User-Agent，不过上面写着的是Python版本等信息。网站管理员一看这些信息，大概率就会判定为“机器人”，然后给限制起来。

别担心！今天我就带你深入Scrapy爬虫框架，教你如何通过User-Agent伪装技术，让你的爬虫“穿上迷彩服”，在网站的防御系统中自由穿梭。我们会从Scrapy基础开始，逐步深入到高级伪装技巧，并提供完整的实战代码示例。

一、Scrapy爬虫框架快速入门

1.1 把网站装进爬虫，总共分几步？

答案很简单，四步：

新建项目（Project）：新建一个新的爬虫项目
明确目标（Items）：明确你想要抓取的目标
制作爬虫（Spider）：制作爬虫开始爬取网页
存储内容（Pipeline）：设计管道存储爬取内容

1.2 创建第一个Scrapy项目

让我们先创建一个名为“tutorial”的Scrapy项目：

scrapy startproject tutorial

项目目录结构如下：

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

简单介绍一下各个文件的作用：

scrapy.cfg：项目的配置文件
items.py：定义要抓取的数据模型
pipelines.py：数据处理管道
settings.py：项目的设置文件
spiders/：存储爬虫的目录

1.3 定义爬取目标

假设我们要抓取一个图书网站，在items.py中定义模型：

from scrapy.item import Item, Field

class BookItem(Item):
    title = Field()
    link = Field()
    desc = Field()
    price = Field()

1.4 编写第一个爬虫

在spiders目录下创建book_spider.py：

import scrapy
from tutorial.items import BookItem

class BookSpider(scrapy.Spider):
    name = "book"
    allowed_domains = ["books.example.com"]
    start_urls = [
        "http://www.books.example.com/python/",
        "http://www.books.example.com/python/resources/"
    ]

    def parse(self, response):
        # 简单将页面保存为文件
        filename = response.url.split("/")[-2]
        with open(filename, 'wb') as f:
            f.write(response.body)
        
        # 解析页面内容
        for book in response.xpath('//div[@class="book-item"]'):
            item = BookItem()
            item['title'] = book.xpath('./h2/a/text()').extract_first()
            item['link'] = book.xpath('./h2/a/@href').extract_first()
            item['desc'] = book.xpath('./p/text()').extract_first()
            yield item

运行爬虫