Python爬虫基础教程（36）Python Scrapy爬虫框架实战：糗事百科之Scrapy项目中间件——添加proxy：Scrapy爬虫实战：给糗事百科爬虫加上代理IP，再也不怕被封IP了！

最新推荐文章于 2025-11-25 17:20:36 发布

原创

最新推荐文章于 2025-11-25 17:20:36 发布 · 1.4k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #scrapy

爬虫与反爬虫，就像一场没有硝烟的战争。而代理IP，则是这场战争中最有效的隐身术。

第一章嘿，你知道爬虫大佬Scrapy吗？

咱们搞Python爬虫的，要是没用过Scrapy，那可真是亏大了！它可不是普通的爬虫库，而是一个完整的爬虫框架。想象一下，以前用Requests+BeautifulSoup就像自己手工造车，而Scrapy则是直接给你一辆全副武装的坦克——动力强劲、功能齐全，还能防弹（反爬）！

Scrapy的工作流程特别有意思，它就像一家高效运营的餐厅：

引擎好比前厅经理，负责协调各个部门的工作
调度器就像排号系统，管理请求的顺序
下载器是采购员，专门负责获取网页内容
爬虫是厨师，解析和提取所需数据
Pipeline则是服务员，负责数据存储

这么清晰的分工，让Scrapy在处理大量数据时表现得非常出色。据2025年的实际案例显示，Scrapy每日可以稳定处理2.1亿条数据，分布式部署后性能还能再提升300%。

1.1 环境配置：五分钟搞定

首先，确保你的Python环境是3.8及以上版本。打开终端，执行一条简单的命令：

pip install scrapy

如果用的是Windows系统，建议使用conda install scrapy来避免依赖问题。

安装完成后，强烈建议先创建一个虚拟环境：

python -m venv .venv

激活虚拟环境后再安装依赖，这样可以避免各种环境冲突问题。

验证安装是否成功：

scrapy version

正常情况下，会显示Scrapy的版本信息，表明安装成功了。

第二章创建第一个糗事百科爬虫

2.1 项目创建：从零开始

咱们先创建一个Scrapy项目。在终端中依次执行以下命令：

scrapy startproject qiushibaike
cd qiushibaike
scrapy genspider qsbk "qiushibaike.com"

这样就会创建一个名为qiushibaike的项目，并在spiders文件夹下生成一个qsbk.py的爬虫文件。

项目目录结构是这样的：

qiushibaike/
    scrapy.cfg
    qiushibaike/
        __init__.py
        items.py
        middlewares.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            qsbk.py

看到这些文件是不是有点懵？别担心，它们各有各的用处：

items.py：定义数据存储模板，定制要保存的字段
middlewares.py：爬虫中间件，咱们今天重点要修改的地方
pipelines.py：数据持久化代码
settings.py：配置文件，控制爬取速度、并发量等
spiders/qsbk.py：爬虫文件，编写数据解析代码

2.2 分析糗事百科页面结构

糗事百科的页面结构比较清晰，适合爬虫初学者练习。热门段子页面的URL是：https://www.qiushibaike.com/hot/page/1/，其中最后的数字1代表页码。

打开页面，按F12审查元素，可以发现每个段子都包含在<div class="article block untagged mb15">这样的div标签中。

我们需要获取发布人、发布时间、段子内容和点赞数。不过要注意，糗事百科有些段子是带图片的，为了方便在控制台显示，我们可以过滤掉带图片的段子。

2.3 编写爬虫代码</

最低0.47元/天解锁文章