Python爬虫基础教程（33）Python Scrapy爬虫框架实战：糗事百科之目标分析：Scrapy爬虫实战：哈哈哈哈哈，我用Python爬了糗事百科的万条段子！

原创

于 2025-10-18 05:58:27 发布 · 1.7k 阅读

·

19

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #爬虫 #scrapy

不用手动复制粘贴，一个Scrapy爬虫就能让糗事百科的段子自动“跑”到你的电脑里。

01 爬虫入门：Scrapy框架的神奇力量

还记得手动一条条复制粘贴糗事百科段子的日子吗？那时候为了收集搞笑段子，不得不频繁点击下一页，重复着机械的复制操作。

Scrapy的出现彻底改变了这一切，它就像是爬虫界的瑞士军刀，功能齐全又强大。

作为一个为专业爬虫而生的框架，Scrapy能轻松处理并发请求、自动调度、异常处理和数据导出，每日可稳定处理海量数据。

与传统爬虫工具如Requests+BeautifulSoup需要手动处理请求调度相比，Scrapy提供完整工作流管理，基于Twisted引擎实现高并发请求。

为什么选择Scrapy来爬取糗事百科？ 简单来说，它就是为这种多页面内容采集而生的。想象一下，你不用手动翻页，不用逐个点击，只需写好规则，Scrapy就会像一只不知疲倦的蜘蛛，自动在糗事百科的页面间穿梭，把最新最搞笑的段子带到你面前。

更棒的是，一旦设置好爬虫，你可以随时重新运行，获取最新的段子，一劳永逸。

02 环境配置：搭建你的爬虫工作台

开始前，我们需要准备好爬虫环境。别担心，这个过程很简单。

安装Scrapy只需要一行命令：

pip install scrapy

安装完成后，可以通过以下命令验证安装是否成功：

scrapy version

专业建议：先通过python -m venv .venv创建虚拟环境，激活后再安装依赖，避免环境冲突！

安装过程中如果遇到问题，Windows用户可以尝试使用conda install scrapy来避免依赖问题。

创建你的第一个Scrapy项目：

打开终端或命令提示符，进入你想要存放项目的目录，然后执行：

scrapy startproject qiushibaike

这会创建一个名为“qiushibaike”的新目录，里面包含了一个基本的Scrapy项目结构。

进入项目目录：

cd qiushibaike

然后创建一个爬虫文件：

scrapy genspider qsbk "qiushibaike.com"

这样，你的爬虫工作台就搭建好了！这个项目结构就像是一条流水线，每个部分都有其特定职责，协同工作以确保爬虫高效稳定运行。

03 目标分析：揭秘糗事百科的页面规律

明确我们的爬取目标：

抓取糗事百科热门段子
过滤带有图片的段子（因为图片在控制台不便于显示）
提取每个段子的发布时间、发布人、内容和点赞数
实现翻页功能，可以持续抓取多个页面的内容

分析糗事百科的页面结构：

首先，我们确定目标URL。糗事百科的热门段子页面URL格式为：http://www.qiushibaike.com/hot/page/1，其中最后一个数字代表页数。

通过更改这个数字，我们可以访问不同的页面。

查看网页源代码：

打开浏览器，右键点击页面选择“检查”或按F12打开开发者工具，可以看到段子在HTML中的结构。

每个段子都被包含在<div class="article block untagged mb15" id="...">的div标签中。

识别数据位置：

发布人：在<a>元素的文本中
发布时间：在title属性中
段子内容：在<div class="content">元素中
点赞数：在<span class="stats-vote"><i class="number">中

识别带图片段子：带图片的段子会有<div class="thumb">标签，我们可以根据这个特征过滤掉图片段子。

了解了这些规律，我们就可以开始编写爬虫代码了。

04 代码实战：编写糗事百科爬虫

定义数据模型

首先，我们需要在items.py文

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

值引力 持续创作，多谢支持！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。