Scrapy框架学习 - 爬取Boss直聘网Python职位信息

本文介绍了如何运用CrawlSpider、LinkExtractor和Rule来爬取Boss直聘网站上的Python职位信息。通过设置LinkExtractor的allow参数和Rule的callback方法,实现了网页的定向爬取和数据处理。在items.py、spiders/bosszhipin_spider.py、pipelines.py和settings.py中定义了数据结构、爬虫逻辑、数据处理管道和配置信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分析

使用CrawlSpider结合LinkExtractorRule爬取网页信息

LinkExtractor用于定义链接提取规则,一般使用allow参数即可

LinkExtractor(allow=(), # 使用正则定义提取规则
              deny=(), 	# 排除规则
              allow_domains=(), # 限定域名范围
              deny_domains=(),  # 排除域名范围
              restrict_xpaths=(), # 使用xpath定义提取队则
              tags=('a', 'area'), 
              attrs=('href',), 
              canonicalize=False,
              unique=True, 
              process_value=None,
              deny_extensions=None, 
              restrict_css=(),		# 使用css选择器定义提取规则
              strip=True):

Rule用于定义CrawlSpider的爬取规则,由Spider内部自动识别,提交请求、获取响应,交给callback指定的回调方法处理response

如果指定了callback,参数follow默认为False;如果callback为None,follow默认为True

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值