scrapy简单爬虫（一）

最新推荐文章于 2025-03-20 12:06:51 发布

原创最新推荐文章于 2025-03-20 12:06:51 发布 · 327 阅读

0 ·

CC 4.0 BY-SA版权

python爬虫专栏收录该内容

2 篇文章

订阅专栏

本文介绍如何使用Scrapy创建并启动一个爬虫项目，详细解释了项目创建过程及配置文件的各项参数含义，包括爬虫的识别名称、允许的域名、起始URL以及解析方法等。

在terminal中

1.To create scrapy project : scrapy startproject ITcast

2. cd the path of folder spider , and input the command scrapy genspider itcast " itcast.cn"

（1）name = 'itcast'： 爬虫识别名称，必须唯一
（2）allowed_domains = ['itcast.cn'] ：

搜索的域名范围，爬虫的约束区域，爬虫只爬取这个域名下的网页，不存在的URL会被呼略

（3）start_urls = ['http://itcast.cn/']：

爬取的URL元祖列表，爬虫从这里开始抓取数据，所以，第一次下载的数据将会从这些urls开始，

其他子url将会从这些起始URL中继承性生成

（4）def parse(self, response)：解析的方法，每个初始url完成下载后将被调用，调用的时候传入每一个URL传回的Response对象来作为唯一参数，主要作用如下：

负责解析返回的网页数据（response.body），提取结构化数据（生成item）

生成需要下一页的URL请求

当python版本为python2.x时候，需要添加

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lx5090110

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

孤寒者的博客

08-09

65万+

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

scrapy爬虫框架简单实例

ACanswer的专栏

10-06

1万+

声明：初学scrapy，总结学习内容。目录一、安装scrapy 二、创建工程三、编写代码 3.1 item文件编写 3.1 spider文件编写 3.2 pipeline文件编写 3.3 setting文件修改四、测试一、安装scrapy pip install scrapy 二、创建工程 scrapy startproject mySpider ...

参与评论您还未登录，请先登录后发表或查看评论

python爬虫：scrapy爬取传智播客教师信息

彭世瑜的博客

04-19

2434

做一个简单的scrapy爬虫

airangrong6572的博客

10-23

233

前言：做一个简单的scrapy爬虫，带大家认识一下创建scrapy的大致流程。我们就抓取扇贝上的单词书，python的高频词汇。步骤：一，新建一个工程scrapy_shanbay 二，在工程中中新建一个爬虫项目，scrapy startproject shanbei_spider 三，切入到项目目录下，然后在项目中，新建一个爬虫spide...

一个简单的scrapy爬虫

perfectnihil的博客

08-22

4709

写好了一个爬虫Demo，准备小试牛刀，执行过程中遇到如下问题第一步 C:\Users\Administrator\PycharmProjects\mySpider\mySpiderOne\mySpiderOne>scrapy c rawl tiebaSpider 2017-08-22 23:44:26 [scrapy.utils.log] INFO: Scrapy 1.4.0 s

一个最简单的 scrapy 爬虫搭建

一只冰熊

08-11

377

每次有新的东西要爬总是忘了步骤要重新百度一遍，现在自己记录一下，方便以后看。步骤定义 Item 首先把要爬的东西封装成Item，在item.py里定义。这步是为了之后方便在pipelines里处理item。 import scrapy class MaterialInfo(scrapy.Item): # define the fields for your item here like...

scrapy简单爬虫

xymandy的博客

06-08

386

在cmd里面输入在ide里面修改books.py文件# -*- coding: utf-8 -*-import scrapyclass BooksSpider(scrapy.Spider): #爬虫唯一标识 name = 'books' #入口点 start_urls = ['http://books.toscrape.com/'] #解析页面，1.提取页面中的数据，2、提取页面中的链接 #页...

简单scrapy爬虫实例

weixin_30663391的博客

05-05

247

简单scrapy爬虫实例流程分析抓取内容：网站课程页面：https://edu.hellobi.com 数据：课程名、课程链接及学习人数观察页面url变化规律以及页面源代码帮助我们获取所有数据 1、scrapy爬虫的创建　　在pycharm的Terminal中输入以下命令：　　　　创建scrapy项目：scrapy startproject ts 　　　　进入到...

精通scrapy网络爬虫·刘硕

weixin_61939513的博客

08-19

783

清华大学出版社·刘硕

Python爬虫之scrapy分布式爬虫

08-12

1142

scrapy分布式爬虫Scrapy-Redis分布式爬虫组件分布式爬虫的优点分布式爬虫必须要解决的问题Scrapy-Redis架构图redis安装 Scrapy-Redis分布式爬虫组件 Scrapy是一个框架，他本身是不支持分布式的。如果我们想要做分布式的爬虫，就需要借助一个组件叫做Scrapy-Redis，这个组件正是利用了Redis可以分布式的功能，集成到Scrapy框架中，使得爬虫可以进行...

浅析python实现scrapy定时执行爬虫

09-20

Scrapy是一个快速的高层次的网页抓取和网页爬取框架，用于抓取网站并从页面中提取结构化的数据。定时执行爬虫是指在特定时间间隔或特定时间点自动运行爬虫程序，以实现周期性或定时的数据抓取。在Python环境下，利用...

python3.7 scrapy简单爬虫入门

11-20

**Python 3.7 Scrapy 简单爬虫入门** Scrapy 是一个用 Python 编写的高效且强大的网络爬虫框架，适用于自动化抓取、处理、分析网页数据。在 Python 3.7 的环境下，我们可以轻松搭建起一个基本的 Scrapy 爬虫项目，...

Python学习之路-爬虫提高:scrapy使用

geobuins的博客

02-14

1444

定义Item的原因：定义item即提前规划好哪些字段需要抓取，scrapy.Field()仅仅是提前占坑，通过item.py能够让别人清楚自己的爬虫是在抓取什么，同时定义好哪些字段是需要抓取的，没有定义的字段不能使用，防止手误。

scrapy入门（深入）

2302_80729149的博客

03-20

1976

首先在items中定义一个需要爬取的数据结构# 创建一个类来定义爬取的数据结构那为什么要这样定义：在Scrapy框架中，是用于定义Item字段的特殊类，它的作用相当于一个标记。数据结构声明每个Field实例代表Item中的一个数据字段（如你代码中的name/title/url），用于声明爬虫要收集哪些数据字段。元数据容器虽然看起来像普通赋值，但实际可以通过Field()传递元数据参数：在这里定义变量之后，后续就可以这样进行使用item['name'] = '股票名称'

scrapy框架入门（爬取itcast实例）

qq_40707462的博客

07-28

976

1、简介官方文档 crapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。 Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。 Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spid

scrapy初探：写一个简单的爬虫

mmmmmk_的博客

05-13

3585

outline: 0 简介 1 工程的建立： 2 简单的爬虫 3 执行爬虫 4 文件下载 5 总结 0 简介 scrapy是一个爬虫框架。该框架能够让我们集中在爬虫的核心处理上。但是，框架带来的缺点就是不够灵活。 1 工程的建立前提：已经安装好python以及scrapy 在cmd中，进入相应的目录，使用命令： scrapy startproject spider_n

Scrapy框架之传智项目整理

Macocoa的专栏

07-24

561

=============================================================== scrapy爬虫框架 =============================================================== 1.scrapy-project: itcast (爬虫中不使用yield,...

使用scrapy做爬虫遇到的一些坑：爬虫使用scrapy爬取网页返回403错误大全以及解决方案

最新发布

04-27

### Scrapy 分布式爬虫简单案例教程 #### 1. 环境准备为了构建一个简单的Scrapy分布式爬虫，需要安装必要的依赖库。以下是所需的主要工具及其作用： - **Scrapy**: Python的高效爬虫框架。 - **Redis**: 数据存储和消息队列服务，用于共享待爬取URL队列以及去重功能。可以通过以下命令安装所需的Python包[^1]: ```bash pip install scrapy redis scrapy-redis ``` #### 2. 创建Scrapy项目创建一个新的Scrapy项目，并初始化基础结构： ```bash scrapy startproject distributed_crawler cd distributed_crawler ``` #### 3. 配置`settings.py` 编辑项目的配置文件 `settings.py`，启用 Redis 支持的功能模块： ```python # 启用调度器持久化 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 去重过滤器设置为 Redis 实现 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 设置 Redis 连接参数 (可根据实际情况修改) REDIS_URL = 'redis://localhost:6379' # 是否保持任务队列不被清理 SCHEDULER_PERSIST = True # 默认请求序列化方法 SCHEDULER_SERIALIZER = "scrapy_redis.serializers.pickle" ``` 以上配置使得多个爬虫实例可以从同一 Redis 队列中读取 URL 并执行抓取操作[^4]。 #### 4. 编写爬虫代码定义一个简单的 Spider 类来演示如何从目标网站提取数据。假设我们要爬取一些文章链接作为例子： ```python import scrapy from scrapy_redis.spiders import RedisSpider class ExampleSpider(RedisSpider): name = 'example_spider' allowed_domains = ['example.com'] # 使用 Redis 中的任务队列代替固定的起始 URL 列表 def parse(self, response): title = response.css('h1::text').get() yield {'title': title} next_pages = response.css('a::attr(href)').extract() for url in next_pages: yield scrapy.Request(url=url, callback=self.parse) ``` 此 Spider 继承自 `RedisSpider`，它会自动从 Redis 的键空间里拉取初始 URL 来源而不是硬编码在程序内部[^3]。 #### 5. 启动多个爬虫节点确保本地已运行了一个 Redis 服务之后，在不同终端窗口分别启动若干个爬虫进程： ```bash # 第一个爬虫节点 scrapy crawl example_spider -s REDIS_START_URLS_KEY=example:start_urls # 另外开启更多节点... ``` 这里 `-s REDIS_START_URLS_KEY` 参数指定了 Redis 键名用来加载种子 URL[^2]。 #### 6. 结果收集与分析所有爬虫产生的结果都会按照设定好的管道机制保存下来或者发送给下游系统进一步加工处理。 --- ### 注意事项 - 如果计划部署到生产环境，则需考虑增加错误恢复逻辑、负载均衡策略等方面的内容。 - 对于高并发场景下的性能调优可能还需要调整 Redis 和网络 IO 方面的相关参数。 ---