Python----Python爬虫（Scrapy的应用：CrawlSpider 使用，爬取小说，CrawlSpider版）

最新推荐文章于 2025-04-29 21:53:09 发布

蹦蹦跳跳真可爱589

最新推荐文章于 2025-04-29 21:53:09 发布

阅读量3.1k

点赞数 31

分类专栏：爬虫 Python 文章标签： python 爬虫 scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_64110589/article/details/145123707

版权

一、CrawlSpider 使用

1.1、CrawlSpider

CrawSpiders 是 Scrapy 框架中的一个特殊爬虫类，它用于处理需要跟随链接并抓取多个页面的情况。相比于基本的 Spider 类，CrawSpiders 提供了一个更灵活、更强大的方式来定义爬取规则。

在Scrapy中Spider是所有爬虫的基类，而CrawSpiders就是Spider的派生类。

适用于先爬取start_url列表中的网页，再从爬取的网页中获取link并继续爬取的工作

1.2、使用 CrawlSpider 的基本步骤

定义爬虫类：从 CrawlSpider 继承并定义爬虫类。

设置起始 URL：通过 start_urls 属性定义要开始爬取的 URL。

定义解析规则：通过 rules 属性设置爬取规则，这通常包括为页面提取数据和跟随链接的规则。

创建CrawlSpider

scrapy genspider -t crawl 爬虫名 (allowed_url)

1.3、使用CrawlSpider中核心的2个类对象

1.3.1、Rule对象

Rule类与CrawlSpider类都位于scrapy.contrib.spiders模块中

class scrapy.contrib.spiders.Rule( 
    link_extractor,         
    callback=None,
    cb_kwargs=None,
    follow=None,
    process_links=None,
    process_request=None)

参数含义：

        link_extractor为LinkExtractor，用于定义需要提取的链接

        callback参数：当link_extractor获取到链接时参数所指定的值作为回调函数

                注意回调函数尽量不要用parse方法，crawlspider已使用了parse方法

        follow：指定了根据该规则从response提取的链接是否需要跟进。当callback为None,默认值为True

最低0.47元/天解锁文章

蹦蹦跳跳真可爱589

博客等级

码龄4年

描述： python领域新星创作者

222
原创

5497
点赞

3821
收藏

2870
粉丝

关注

私信

热门文章

分类专栏

opencv 37篇
Python 213篇
深度学习 9篇
神经网络 9篇
大模型 1篇
linux 2篇
目标检测 17篇
循环神经网络 12篇
PyQt 9篇
经典神经网络 11篇
git 1篇
语音识别 1篇
机器学习 28篇
卷积神经网络 6篇
Pytroch 13篇
数学 6篇
图像处理 30篇
PaddlePaddle 2篇
TensorFlow 2篇
数据分析 34篇
数据可视化 19篇
爬虫 10篇
数据结构 6篇

展开全部收起

上一篇：: Python----Python高级（函数基础，形参和实参，参数传递，全局变量和局部变量，匿名函数，递归函数，eval()函数，LEGB规则）

下一篇：: Python----Python高级（面向对象：对象，类，属性，方法）

最新评论

Python----大模型（大模型基础）
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天值得看】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/619745972。
Python----目标检测（YOLO简介）
HUAWEI888HUAWEI: ꧁❦༺《中西医精华》༻❦꧂ 人身之有皮毛、血脉、筋膜、肌肉、骨髓以成形，内则有肝、心、脾、肺、肾以主之，若随情妄用，喜怒不节，致五内精血虚耗，荣卫失度，发为寒热，使皮血、筋骨、肌肉痿弱，无力以运动，故致痿。
Python----目标检测（YOLO简介）
夜郎king: [YOLO](You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的约瑟夫-雷德蒙（Joseph Redmon）和阿里-法哈迪（Ali Farhadi）开发，YOLO 于 2015 年推出，因其高速度和高精确度而迅速受到欢迎。
Python----循环神经网络（BiLSTM：双向长短时记忆网络）
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天值得看】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/619739575。
Python----Python爬虫（selenium的使用，处理弹窗，拖拽元素，调用js方法，等待元素，参数使用）
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/boost_spider 依托于funboost的强大可视化管理，不登录机器可以轻松掌控分布式大规模爬虫运行状态，一目了然。可视化截图： https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。