scrapy总结

 

异步和同步指的是过程,阻塞和非阻塞指的是状态

scrapy中重要的是怎样写xpath来取数据,怎么样处理数据,还有怎样进行数据的保存。

创建一个scrapy 项目就是创建了一个scrapy文件夹。还要在 cd 到这个文件夹下面创建爬虫。

1 .scrapy startproject mySpiser (创建一个工程的文件)

2.scrapy genspider itcast itcast.cn (在控制台那在那里面创建一个spider)

可以定义多个pipeline ,如一个pipeline进行数据的处理,一个pipeline进行数据的保存。

 

3.创建CrawlSpider类的爬虫:

scrapy genspider  -t  crawl  爬虫的名字   域名   他 -t表示的是使用crawl这个模板。

 

scrapy  Request对象在我们写爬虫,爬取一页的数据需要重新发送一个请求的时候调用,这个类需要传递一些参数,其中比较常用的参数有
1.ur1:这个 request对象发送请求的url

2.callback:在下载器下载完相应的数据后执行的回调函数。

3. method:请求的方法。默认为get方法,可以设置为其他方法。

4.headers:请求头,对于一些固定的设置,放在srttings.py中指定就可以了,对于那些非固定的,可以在发送请求的时候指定。

5.meta:比较常用。用于在不同的请求之间传递数据用的。如两个页面之间共享数据,可以把第一页爬取到的数据共享到详情页。

6.enconding:编码。默认为utf-8,使用默认的就可以了。

7. dot_filter:表示不由调度器过滤。在执行多次重复的请求的时候用得比较多。默认为ture,即是一个url发送过一次了,调度器不会重新调度让它去发送。但是是你可以把他设置为flase。就可以反复发送,如登录的页面用到。反复登录,直到成功。

8. errback:在发生错误的时候执行的函数。

 

 

Response对象:
Response对象一般是由 Scraps给你自动构建的。因此开发者不需要关心如何创建 Response对象,而是如何使用他。 Response对象有很多属性,可以用来提取数据的。主要有以下属性

1.meta:从其他请求传过来的meta属性,可以用来保持多个请求之间的数据连接。即数据共享

2. encoding:返回当前字符串编码和解码的格式。

3.text:将返回来的数据作为 unicode字符串返回。返回text是经过编码的.

4.body:将返回来的数据作为 bytes字符串返回。没有经过解码的。在网络和硬盘之间传递的。如果text解码不对,就可以用body去重新指定解码。

5. xpath: xpath选择器。
6.css:css选择器

 

 

发送post请求
有时候我们想要在请求数据的时候发送post请求,那么这时候需要使用 Request的子类 FormRequest来实现。如果想要在爬虫一开始的时候就发送post请求,那么需要在爬虫类中重写 start_request(self)方法,并且不再调用start_urls里的url。如果不重写,那么它就会发送star_urls里面的url,默认的是get请求。所以想要发送post请求,建议重写 start_request(self)方法。

登录一般是发送post请求,想找到登录的接口,先找到from表单,from表单里面的action就是登录的链接,有时候是完整的链接,有时候是拼接的,即是前面还有加上主域名的。在谷歌浏览器里面选择查找的那个箭头,直接点击那个表单就能找到。

 

Downloader Middlewares(下载器中间件)

下载器中间件是引擎和下载器之间通信的中间件。在这个中间件中我们可以设置代理、更换请求头等来达到反反爬虫的目的。要写下载器中间件,可以在下载器中实现两个方法。一个是process_requests(self,requests,spider)这个方法是在请求发送之前会执行,还有一个是process_response(self,response,spider)这个方法是数据下载到引擎之执行。process_request(self, request, spider)这个方法是下戟器在发送请求之前会执行的。一般可以在这个里面设置随机代理ip等。

1.参数
° request:发送请求的 requests对象:.。

spider:发送请求的spider对象。

2返回值:
返回None:如果返回None, Scrapy将继续卖处理该 Request,执行其他中间件中的相应方法,直到合适的下载器处理函数被调用
°返回 Response对象: Scrapy将不会调用任何其他的 process_request方法,将直接返回这个 response对象。已经激活的中间件的 process_response()方法则会在每个 response返回时被调用.

返回 Request对象:不再使用之前的 request对象去下载数据,而是根据现在返回的 request对象返回数据。如果这个方法中抛出了异常,则会调用 process_exception.方法。

 

 

process_response(self, request, response, spider)这个是下载器下载的数据到引擎中间会执行的方法。(就是返回的 时候)

1.参数:
° request: request对象。

° response:被处理的 response对象。

° spider:spider对象
2返回值:
°返回 Response对象:会将这个新的 response对象传给其他中间件,最终传给爬虫。

返回 Request对象:下载器链被切断,返回的 request会重新被下载器调度下载。

如果批出一个异常,那么调用 request的 errback方法,如果没有指定这个方法,那么会抛出一个异常。

随机请求头中间件:
爬虫在频繁访问一个页面的时候,这个请求头如果一直保持一致。那么很容易被服务器发现,从而禁止掉这个请求头的访问。因此我们要在访问这个页面之前随机的更改请求头,这样才可以避免爬虫被抓。随机更改请求头,可以在下载中间件中实现。在请求发送给服务器之前,随机的选择一个请求头。这样就可以避免总使用一个请求头。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

<think>好的,我现在需要帮助用户总结和概述Scrapy框架中的Spider功能。首先,我得回忆一下用户提供的引用内容,看看里面有哪些关于Spider的关键点。引用1提到Spider是核心角色,负责根据规则抓取数据,并且提到了CrawlSpider。引用2和引用4分别提到了Scrapy的整体框架和组件,比如调度器、下载器、引擎等,Spider在这里的作用是生成请求和提取数据。引用3和引用5展示了具体的Spider代码示例,比如定义name、start_urls和parse方法,还有初始函数的参数。 接下来,我需要将这些信息组织成一个结构化的总结。可能需要分几个部分,比如核心功能、组件协作、开发流程、类型和扩展,以及数据存储。这样用户看起来会比较清晰。 要确保使用正确的中文术语,并且按照用户的要求,行内公式用$...$,不过这里可能用不上数学公式,但要注意其他格式要求,比如代码块和引用标识。例如,在提到Spider组件时,引用2和4提到了调度器、下载器等,所以需要在相关部分末尾加上引用标识。 另外,用户要求生成相关问题,我需要根据总结的内容提出几个相关的问题,比如Spider的工作流程、如何优化解析效率、与CrawlSpider的区别等。这些问题应该覆盖用户可能感兴趣的后续学习点。 还要注意不要直接复制引用内容,而是用自己的话重新组织,同时确保引用正确。比如,在讲Spider开发流程时,引用3和5提供了代码示例,可以提到定义类、处理响应等方法,并标注对应的引用。 最后,检查是否符合所有系统级指令:使用正确的中文,结构清晰,引用标识自然添加,没有使用任何markdown格式,代码块用三个反引号包裹,并生成相关问题。确保没有遗漏用户的需求,比如总结Spider的功能,而不仅仅是Scrapy的整体框架。</think>### Scrapy Spider 功能总结与概述 #### 一、核心功能定位 Scrapy Spider 是框架中负责**定义爬取规则**和**解析响应数据**的核心组件,其功能类似于“数据导航员”,通过编写规则告诉框架: 1. **从哪些页面开始爬取**(`start_urls`定义初始请求) 2. **如何跟踪链接**(通过回调函数或规则引擎) 3. **如何提取结构化数据**(使用XPath/CSS选择器或正则表达式)[^1][^3] #### 二、组件协作流程 在 Scrapy 架构中,Spider 与其他组件协同工作: $$ \text{引擎} \rightarrow \text{调度器} \rightarrow \text{下载器} \rightarrow \text{Spider} \rightarrow \text{管道} $$ 具体流程: 1. 生成初始请求(`start_requests`方法) 2. 处理下载器返回的响应(`parse`方法) 3. 生成新请求或数据项(`yield`提交到引擎)[^4][^2] #### 三、开发核心要素 ```python class ArticleSpider(scrapy.Spider): name = 'blog' # 爬虫唯一标识 allowed_domains = ['example.com'] # 域名限制 start_urls = ['http://example.com/articles'] def parse(self, response): for article in response.css('div.article'): yield { 'title': article.css('h2::text').get(), 'url': article.css('a::attr(href)').get() } ``` ▲ 关键开发步骤: 1. 继承`scrapy.Spider`基类 2. 定义初始请求集合 3. 实现响应解析逻辑[^3][^5] #### 四、高级类型与扩展 1. **CrawlSpider**:基于规则自动跟踪链接 ```python rules = ( Rule(LinkExtractor(allow=r'/page/\d+/'), callback='parse_item'), ) ``` 2. **XMLFeedSpider**:处理XML格式数据源 3. **CSVFeedSpider**:解析CSV结构化数据[^1][^4] #### 五、数据处理与存储 通过`Item Pipeline`实现: 1. 数据清洗(去重、格式校验) 2. 持久化存储(数据库/文件) 3. 文件下载(结合FilesPipeline)[^4]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值