scrapy初始第三波——CrawlSpider爬取拉勾招聘网

本文介绍了如何使用CrawlSpider爬取拉勾网的招聘信息。通过创建Scrapy工程,设置CrawlSpider的rules和Rule对象,解析网页链接,并针对拉勾网的URL模式进行匹配。在解析过程中,还提到了应对反爬措施,如设置随机user-agent。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一,前言

  之前利用scrapy爬取伯乐在线,知乎时是用到scrapy的basic模板,即Spider,这次用CrawlSpider来爬取拉勾网的招聘信息

  CrawlSpider基于Spider,但是可以说是为全站爬取而生,是目前最流行的scrapy模板


二,创建工程

在cmd中cd进入项目的目录,然后输入:scrapy gensipder -t crawl lagou  www.lagou.com

默认生成:


三,简要说明

CrawlSpider是爬取那些具有一定规则网站的常用的爬虫,它基于Spider并有一些独特属性,也就是之前spider的爬取规则现在也适用,下面的参数可以按ctrl点击CrawlSpider获取源码

 

  • rules: 是Rule对象的集合,用于匹配目标网站并排除干扰
  • parse_start_url: 用于爬取起始响应,必须要返回ItemRequest中的一个。

因为rulesRule对象的集合,所以这里也要介绍一下Rule对象

它有几个参数:linkExtractorcallback=Nonecb_kwargs=Nonefollow=Noneprocess_links=Noneprocess_request=None

  • callback为回调函数,传入一个str,即回调函数的名字
  • follow为boolean类型,为true就继续跟踪,为false则不往下跟踪

其中的linkExtractor既可以自己定义,也可以使用已有LinkExtractor类,主要参数为:

  • allow:满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。
  • deny:与这个正则表达式(或正则表达式列表)不匹配的URL一定不提取。
  • allow_domains:会被提取的链接的domains。
  • deny_domains:一定不会被提取链接的domains。
  • restrict_xpaths:使用xpath表达式,和allow共同作用过滤链接。还有一个类似的restrict_cs
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值