Ruia异步爬虫框架快速开始教程

原创

已于 2022-03-10 09:57:30 修改 · 1.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #js #爬虫 #scrapy #ruia

于 2021-04-04 23:09:24 首次发布

本文是关于Ruia异步爬虫框架的快速入门教程，通过爬取Hacker News实例，介绍如何定义Item、测试、编写Spider、运行及扩展功能，包括Middleware和MongoDB数据持久化。

基于Ruia快速实现一个以Hacker News为目标的爬虫

概述

Ruia是一个基于asyncio和aiohttp的异步爬虫框架，目标在于让开发者编写爬虫尽可能地方便快速。

写更少的代码，获取更快的运行速度：

教程：中文文档 |documentation
Github 组织： python-ruia
插件：awesome-ruia(你贡献的任何插件都是值得赞赏且可贵的！)

特性

简单：简明的语法
速度：
- 开发：常用功能插件化，如加载js、自动切换UA、数据持久化等插件
- 运行：asyncio驱动
插件：自由地扩展个性化功能

本文主要通过对Hacker News的爬取示例来展示如何使用Ruia，下图红框中的数据就是爬虫脚本需要爬取的目标：

开始前的准备工作：

确定已经安装Ruia：pip install ruia -U
确定可以访问Hacker News

第一步：定义 Item

Item的目的是定义目标网站中你需要爬取的数据，此时，爬虫的目标数据就是页面中的Title和Url，怎么提取数据，Ruia的Field类提供了以下三种方式提取目标数据：

XPath
Re
CSS Selector

这里我们使用CSS Selector来提取目标数据，用浏览器打开Hacker News，右键审查元素：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

老胡的储物柜

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

爬虫异步框架

08-28

这是一个基于Python3的异步爬虫框架

Python-ruia基于asyncio的异步Python36网页抓取微框架

08-10

ruia：基于asyncio的异步Python 3.6 网页抓取微框架。它具有容易上手、非阻塞、扩展性强等特点

参与评论您还未登录，请先登录后发表或查看评论

源码剖析 - 轻量级异步爬虫框架 ruia

weixin_30230009的博客

02-12

1593

前言在源码剖析 - 公众号采集阅读器 Liuli 一文中提到了 ruia，这篇文章就简单记录一下 ruia。为啥要看？主要是在阅读 Liuli 的过程中，顺手看了一下 ruia 的仓库，发...

Python微型异步爬虫框架

weixin_34293911的博客

02-14

667

Amipy Python微型异步爬虫框架(A micro asynchronous Python website crawler framework) 基于Python 3.5 + 的异步async-await 框架，搭建一个模块化的微型异步爬虫。可以根据需求控制异步队列的长度和延迟时间等。配置了可以去重的布隆过滤器，网页内容正文过滤等...

异步爬虫—Scrapy框架

weixin_45620570的博客

02-05

1077

scrapy异步框架核心原理同步：下一个方法依赖于上一个方法的结果。异步：下一个方法不依赖于上一个方法的结果。 spiders就是我们写的csdn的博客爬虫文件。scheduler是调度器，将url_s里所有的url地址统一分配，然后发给downloader，让它去向服务器请求下载。还有一个就是去重的功能，去掉重复的url请求。item pipeline用于把io存储，把数据存储到本地。...

Scrapy- 异步爬虫框架-分布式爬虫scrapy-redis-python爬虫知识点8

weixin_43761516的博客

06-04

1683

一、scrapy简介优点可配置、可扩展性非常高比较灵活，让稳定和快速基于异步，内部封装了这个twisted异步网络框架，复杂，采用了大量闭包也提供了可控的速度队列1，保存每一页的url，爬取数据爬取的数据后保存到队列2中，存放图片的url和名字线程，去队列中get 图片url 并保存文件搭好架子 cto 技术总监架构师 ceo 二、scrapy 的工作流程引擎–发动机–统筹全局 - 整个框架的核心调度器–接收从引擎发过来的url，入列，一直工作到没有url了爬虫程序：整

python爬虫：Ruia的详细使用（一个基于asyncio和aiohttp的异步爬虫框架）

最新发布

数据知道的博客

06-02

8538

Ruia是一个基于asyncio和aiohttp的Python异步爬虫框架，设计简洁高效，支持快速开发高性能爬虫。框架核心模块包括Request（异步网络请求）、Response（统一响应处理）、Item（数据提取规则）和Spider（爬虫入口）。通过CSS Selector/XPath选择器和Field字段（AttrField、TextField等）实现网页数据抓取，支持单/多目标数据提取。其异步特性可显著提升爬取速度，同时提供中间件机制和钩子函数扩展功能。

如何爬取链家小区成交数据——Ruia异步爬虫框架笔记

shendeyidishui的博客

03-29

893

Ruia是一个基于asyncio和aiohttp的异步爬虫框架，它的目标是让你更加方便且迅速地编写出属于自己的爬虫。编写的方式与Scrapy十分相似，同时支持Xpath和CssSelec...

【Pyhton自学笔记】Python异步爬虫框架Ruia学习索引

XiaoqiangClub的博客

06-08

455

Python异步爬虫框架Ruia学习索引

python异步爬虫框架_python-自定义异步非阻塞爬虫框架

weixin_27727467的博客

02-10

239

###apiimport socketimport selectclass MySock:def __init__(self, sock, data):self.sock = sockself.data = datadef __getattr__(self, item):return getattr(self.sock, item)class YinBing:def __init__(self):...

基于 asyncio 的Python异步爬虫框架

weixin_34361881的博客

09-11

385

aspider A web scraping micro-framework based on asyncio. 轻量异步爬虫框架aspider，基于asyncio，目的是让编写单页面爬虫更方便更迅速，利用异步特性让爬虫更快（减少在IO上的耗时）介绍 pip install aspider 复制代码Item 对于单页面，只要实现框架定义的 Item 就可以实现对目标数据的抓取： import a...

ruia_study:学习微爬虫框架ruia原始码相关笔记

03-23

ruia_study 对ruia微爬虫框架进行源码解读，有不对的地方欢迎指正

ruia:基于asyncio的异步Python 3.6+ Web抓取微框架

04-30

鲁阿 :spider_web: 基于asyncio的Async Python 3.6+ Web抓取微框架。 :high_voltage: 写得更少，运行得更快。概述 Ruia是一个异步网络抓取微框架，由asyncio和aiohttp ，旨在使抓取url尽可能方便。写得更少，运行速度更快：文档：| 组织：插件：（您所做的任何贡献都将不胜感激！）特征简单：声明式编程快速：由asyncio提供支持可扩展：中间件和插件强大：JavaScript支持安装 # For Linux & Mac pip install -U ruia[uvloop] # For Windows pip install -U ruia # New features pip install git+https://github.com/howie6879/ruia 讲解概述安装定义数据项蜘蛛控制要求与回应自定义中间件

地球上最好用的爬虫框架：Scrapy异步爬虫框架:

m0_72458808的博客

06-09

1768

在scrapy中，具体工作流程是这样的：当scrapy框架启动时，首先引擎会到爬虫中获取起始URL, 当引擎获取到起始url 后，会将这个url封装成一个Request 请求对象交给调度器而这个调度器拥有两个功能，过滤器就是过滤掉已经完成的请求对象，而请求队列则是维护了一个很多请求对象的队列，言归正传，调度器会再次将请求队列中的Request 请求对象通过引擎交给。

Scrapy爬虫异步框架(一篇文章齐全)

Python

11-26

2951

1、Scrapy框架初识2、Scrapy框架持久化存储（点击前往查阅）3、Scrapy框架内置管道（点击前往查阅）4、Scrapy框架中间件（点击前往查阅）Scrapy 是一个开源的、基于Python的爬虫框架，它提供了强大而灵活的工具，用于快速、高效地提取信息。Scrapy包含了自动处理请求、处理Cookies、自动跟踪链接、下载中间件等功能。

异步爬虫框架scrapy

sumatray的博客

02-18

589

可能找不到win32api模块 ---windows系统中常见。

异步爬虫框架与协程浅析

qq_33339479的博客

11-21

850

异步爬虫框架与协程浅析经典原文使用协成完成异步爬虫原文链接根据分享原文链接。Python基于协程的实现，其实是利用了Python生成器的特性完成的，Python生成器的原理其实涉及到用户态绿色线程的实现，用户态绿色线程是指通过在用户态实现函数之间执行的跳转，正常的函数调用在底层执行时会创建堆栈，将函数执行的数据进行压栈，保存函数运行时的数据，在函数执行完成后，函数运行后的数据会被丢弃，不会保存，实现

Python爬虫入门教程 86-100 Python爬虫框架在多来一个Ruia，解决问题的途径再次增多。