爬虫笔记26：Scrapy案例-爬取腾讯招聘、scrapy.Request(url, meta, callback)中meta参数的作用

最新推荐文章于 2023-03-19 21:19:38 发布

原创

最新推荐文章于 2023-03-19 21:19:38 发布 · 455 阅读

2 ·

CC 4.0 BY-SA版权

本文详细介绍了如何使用Scrapy爬取腾讯招聘网站的岗位信息，并实现翻页功能。首先通过分析网页请求发现目标URL，然后通过观察规律实现翻页。在解析数据时，同时获取岗位ID，用于进一步获取岗位职责。最后，展示了如何在Scrapy中使用`meta`参数将数据传递给后续回调函数，完成岗位职责的抓取。代码示例清晰地展示了整个爬取过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需求：爬取腾讯招聘岗位、翻页
https://careers.tencent.com/search.html?index=1
如下：
在这里插入图片描述
第一步分析页面
1、数据在哪里获取？
我们在网页源代码中找下，是否有目标数据：

显然原代码中并没有关于招聘岗位的信息，所以我们不能对该url（https://careers.tencent.com/search.html?index=1）发起并获得响应，再替换page的数字来翻页，进而完成任务。

我们右键检查，在network-XHR中，可以发现下图右下角红框，点击看到response,ctrl+f搜索招聘岗位中的25927，发现了response中包含该数据。
在这里插入图片描述
，就确认了我们要的目标url就在对应的Headers中，见下图。

在这里插入图片描述
即目标url:
https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1625539350923&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&a