爬虫的干活——scrapy框架学习总结(未完成)

本文介绍了Scrapy框架的基本概念,包括其相对于requests+selenium模块的优势,以及如何通过命令行创建和管理Scrapy项目,生成爬虫。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、scrapy框架基本介绍

在进行数据处理中,数据的获取是一个非常重要的环节。通用爬虫模型虽然能满足日常的数据获取需求,但是在性能、数据流程处理方面,自己再去编写相关的模块费时费力,也为了避免重复造轮子,因此之前就学习了scrapy框架,方便在较短的时间内去实现更快、更强大、更稳定的爬虫。
普通的requests+selenium模块是可以满足绝大多数的爬虫需求了,scrapy框架则可以在此基础上为我们的爬虫变得更加strong。
多线程等就不进行解释了,下面直接讲scrapy的基本介绍:
先上一个爬虫详解图
在这里插入图片描述

二、scrapy入门基本使用方法

与django框架使用方法类似,可以通过命令行创建和控制管理项目

1.创建一个项目

  • 命令行输入scrapy startproject MySpider(项目名称)

2.scrapy项目内容介绍

  • 首先看一下创建好项目中的内容有那些

①MySpider(待完成)

②scrapy.cfg

此文件为项目的配置文件
其中[settings]为配置模块,默认为:defaolt = myspider.settings,指使用MySpider模块下的settings作为配置文件
另外[deploy],指的是发布地址的,后续会将代码发布到该url地址,默认本地6800端口,project = MySpider

2.生成一个爬虫

  • 创建好项目后,命令行会提示
You can start your first spider with:
	cd ProjeceName
	scrapy genspider example example.com
  • 即创建好cd到该目录下即可创建爬虫了
  • 使用命令scrapy genspider example example.com可以生成爬虫,example为爬虫名,根据需求修改,example.com为限制爬虫爬取范围,爬取指定域名,以免爬到其他网站。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值