Scrapy与分布式开发：从入门到精通，打造高效爬虫系统

关注

文章平均质量分 81

在这个专栏中，我们将深入探讨Scrapy框架以及如何使用Scrapy-Redis实现分布式爬虫的开发。我们将从Scrapy的基础知识开始，逐步引导读者掌握Scrapy的核心功能和使用技巧。随后，我们将逐步引入分布式开发的概念，并详细解析Scrapy-Redis在分布式爬虫中的应用。

关注数：文章数：20 文章阅读量：21837 文章收藏量：299

作者: 九月镇灵将

深耕python 爬虫领域，app、web、小程序研究

展开

专栏收录文章

Scrapy与分布式开发：MongoDB安装与快速入门

MongoDB 是一个面向文档的数据库系统，使用 BSON（Binary JSON）格式存储数据，提供了高性能、高可用性和易扩展性。它专为 Web 应用和大数据场景设计，通过简单的数据模型、强大的查询功能和灵活的扩展性，成为现代应用开发的热门选择。

原创 2024-03-09 11:36:18 · 1008 阅读 · 0 评论
Scrapy与分布式开发(3)：Scrapy核心组件与运行机制

Scrapy是一个为了爬取网站数据、提取结构性数据而编写的应用框架。它使用Python语言编写，并基于异步网络框架Twisted来实现高性能的爬虫。Scrapy最初是为了页面抓取（更确切地说是网络抓取）而设计的，但它也可以用于获取API返回的数据或通用的网络爬虫。

原创 2024-03-05 10:15:42 · 1596 阅读 · 0 评论
Scrapy与分布式开发：scrapy实现按脚本name与日期生成日志文件

scrapy实现按脚本name与日期生成日志文件

原创 2024-01-27 10:41:51 · 658 阅读 · 0 评论
Scrapy与分布式开发：scrapy-redis源码分析并实现自定义初始请求

scrapy-redis源码分析并实现自定义初始请求

原创 2024-02-02 16:28:27 · 1661 阅读 · 0 评论
Scrapy与分布式开发：scrapy实现自定义代理中间件

ip检测是比较常规的反爬手段，一般站点会限制ip的访问频率，或者根据ip的访问规律和频率来识别异常访问，从而点对点封ip。相信大家对代理ip并不陌生，这是ip反爬的绕过方式，且进一步衍生出代理池。

原创 2024-02-06 16:06:56 · 1961 阅读 · 0 评论
Scrapy与分布式开发：scrapy下载中间件实现动态切换User-Agent

请求头User-Agent是比较常规的反爬手段，不同站点对其检测机制各异，有的是检测是否是合规的浏览器User-Agent，有的是在这基础上检测使用次数与频率，更有甚者是跟ip和cookie绑定在一起检测，这就要求我们能够动态去切换User-Agent（随机or判定切换）。

原创 2024-02-05 12:48:54 · 2199 阅读 · 0 评论
Scrapy与分布式开发：原生scrapy如何接入scrapy-redis，初步入局分布式

scrpy-redis与原生scrapy的差异主要是把名单队列服务器化，也是存储在redis服务中，从而实现分布式，当然还有piplines采集结果数据的存储差异化，它也可以存储到redis中，实现数据存储分布式。

原创 2024-02-02 14:31:01 · 1219 阅读 · 0 评论
Scrapy与分布式开发：框架原生去重机制源码解析与不足分析

在网络爬虫和数据采集领域，去重机制是一个至关重要的环节。随着互联网的迅速发展，数据量呈爆炸式增长，如何在海量数据中高效地筛选出有价值且唯一的信息，成为了一个亟待解决的问题。去重机制正是为了解决这一问题而诞生的。

原创 2024-02-28 16:57:04 · 1311 阅读 · 0 评论
Scrapy与分布式开发(2.9)：pyexecjs

`pyexecjs`是一个Python模块，它允许你在Python环境中执行JavaScript代码。它提供了一个简单而强大的接口，使得Python和JavaScript之间的交互变得容易。通过`pyexecjs`，你可以调用JavaScript引擎来执行JavaScript代码，并将结果返回给Python。

原创 2024-02-27 17:27:46 · 412 阅读 · 0 评论
Scrapy与分布式开发(2.8)：布隆过滤器原理及应用

**布隆过滤器（Bloom Filter）** 是一种空间效率极高的概率型数据结构，用于测试一个元素是否在一个集合中。它的优点是空间效率和查询时间都远超过一般的算法，缺点是有一定的误识别率和删除困难。

原创 2024-03-05 16:14:54 · 1074 阅读 · 0 评论
Scrapy与分布式开发(2.6)：谈谈常用采集策略与应用场景

一个好的采集策略能够提高采集效率，在有限资源下带来更好的适应性和灵活性，从而提高采集质量。

原创 2024-02-29 10:00:00 · 894 阅读 · 0 评论
Scrapy与分布式开发(2.5)：自动化工具playwright

Playwright 是一个无头浏览器测试库，它允许你使用 Python 脚本控制浏览器自动化，执行各种浏览器操作，如点击、填写表单、导航至页面等。Playwright 支持 Chromium (包括 Chrome 和 Edge)、Firefox 和 Webkit (包括 Safari) 这三种主流的浏览器引擎。与 Selenium 类似，Playwright 同样可以模拟用户行为，但它提供了更简洁的 API 和更少的配置。

原创 2024-02-28 10:41:58 · 1661 阅读 · 0 评论
Scrapy与分布式开发(2.4)：bs4+css基本指令和提取方法详解

CSS选择器是网页开发中不可或缺的工具，它们让我们能够精确地定位和选择HTML文档中的元素。在爬虫领域多用于从网页中提取和解析数据。本教程将结合网上教程，提供一份详细的CSS选择器使用指南，并深入探讨更多的指令和API。

原创 2024-03-04 17:11:44 · 1158 阅读 · 0 评论
Scrapy与分布式开发(2.3)：lxml+xpath基本指令和提取方法详解

XPath，全称为XML Path Language，是一种在XML文档中查找信息的语言。它允许用户通过简单的路径表达式在XML文档中进行导航。XPath不仅适用于XML，还常用于处理HTML文档。

原创 2024-03-04 16:11:27 · 1545 阅读 · 0 评论
Scrapy与分布式开发(2.2)：正则表达式

正则表达式是一种强大的文本处理工具，它使用特定的模式来搜索、匹配和替换文本。Python的`re`模块（正则表达式模块）提供了正则表达式匹配操作的所有功能。

原创 2024-02-27 17:05:03 · 1019 阅读 · 0 评论
Scrapy与分布式开发(2.1.3)：python常用网络请求库urllib3

urllib3 是一个 Python 库，用于发送 HTTP 请求。它是 urllib 和 urllib2 的后续版本，并提供了更高级的功能和更好的性能。urllib3 支持 HTTP/1.1 和 HTTP/2 协议，并具有连接池、自动重试、文件上传/下载等特性。

原创 2024-02-27 16:45:21 · 175 阅读 · 0 评论
Scrapy与分布式开发(2.1.2)：python常用网络请求库httpx

`httpx` 是一个用于发送 HTTP 请求的 Python 库，它提供了简单易用的 API，支持同步和异步请求，并且具有出色的性能和灵活性。`httpx` 是 `requests` 的一个现代替代品，它使用 `httpcore` 作为底层传输层，支持 HTTP/1.1 和 HTTP/2 协议。

原创 2024-02-27 16:34:36 · 768 阅读 · 0 评论
Scrapy与分布式开发(2.1.1)：python常用网络请求库requests

`requests`是Python中一个非常流行且功能强大的HTTP客户端库。它允许你使用Python语言发送所有类型的HTTP请求，如GET、POST、PUT、DELETE等。`requests`模块基于urllib3开发，但比urllib3更加简单易用。它提供了丰富的API，使得发送HTTP请求和处理响应变得轻而易举。

原创 2024-02-27 16:17:30 · 182 阅读 · 0 评论
Scrapy与分布式开发(1.2)：开发环境搭建

Anaconda是一个流行的Python数据科学平台，它包含了许多用于数据分析和科学计算的软件包。Anaconda使用conda作为其包管理和环境管理系统。也可以在进入项目后，点击右下角进入环境选择界面，同时支持创建新环境。安装完成后，打开pycharm，新建项目。当本机安装有python环境时会自动引入。下载，下载后按照以下流程图片安装即可。，下载成功后根据以下流程图片安装即可。官网下载太慢，我们通过。

原创 2024-02-28 09:51:23 · 373 阅读 · 0 评论
Scrapy与分布式开发(1.1)：课程导学

在这个专栏中，我们将一起探索Scrapy框架的魅力，以及如何通过Scrapy-Redis实现分布式爬虫的开发。

原创 2024-02-27 15:13:03 · 964 阅读 · 0 评论

Scrapy与分布式开发：从入门到精通，打造高效爬虫系统

作者: 九月镇灵将

Scrapy与分布式开发：MongoDB安装与快速入门

Scrapy与分布式开发(3)：Scrapy核心组件与运行机制

Scrapy与分布式开发：scrapy实现按脚本name与日期生成日志文件

Scrapy与分布式开发：scrapy-redis源码分析并实现自定义初始请求

Scrapy与分布式开发：scrapy实现自定义代理中间件

Scrapy与分布式开发：scrapy下载中间件实现动态切换User-Agent

Scrapy与分布式开发：原生scrapy如何接入scrapy-redis，初步入局分布式

Scrapy与分布式开发：框架原生去重机制源码解析与不足分析

Scrapy与分布式开发(2.9)：pyexecjs

Scrapy与分布式开发(2.8)：布隆过滤器原理及应用

Scrapy与分布式开发(2.6)：谈谈常用采集策略与应用场景

Scrapy与分布式开发(2.5)：自动化工具playwright

Scrapy与分布式开发(2.4)：bs4+css基本指令和提取方法详解

Scrapy与分布式开发(2.3)：lxml+xpath基本指令和提取方法详解

Scrapy与分布式开发(2.2)：正则表达式

Scrapy与分布式开发(2.1.3)：python常用网络请求库urllib3

Scrapy与分布式开发(2.1.2)：python常用网络请求库httpx

Scrapy与分布式开发(2.1.1)：python常用网络请求库requests

Scrapy与分布式开发(1.2)：开发环境搭建

Scrapy与分布式开发(1.1)：课程导学