使用playwright采集拉勾网的岗位信息

本文介绍了如何使用Playwright自动化框架采集拉勾网的职位数据。通过分析拉勾网页面结构,发现职位信息存储在特定的JSON数据中,包括岗位ID、名称、公司简称和发布时间等。虽然最初打算使用Playwright逆向登录和数据接口,但目前仅完成了登录部分,后续会继续补充数据接口逆向的内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、引言

1.1 声明

声明:
  本文章仅供学习交流使用,不提供完整代码,严禁用于商业用途和非法用途,否则由此产生的一切后果均与本人无关,请各位自觉遵守相关法律法规。
  本文章未经许可禁止转载,禁止任何二次修改(加工)后的传播;若有侵权,联系删除。

交流、合作请留言,24小时内回复!

1.2 简介

  有个项目需要使用招聘网站的数据,数据需要尽快先采集着,但是更新频率和数据量不要求,因此本次暂不使用逆向网站数据接口的方式进行高频率采集。

  还有一点 就是 除了早几年之前 使用过selenium 这一款自动化测试框架之外,后面有数据需求时 一般都采用逆向网站的方式,自然也就没再接触过其他的自动化测试框架(例如:pyppeteer、playwright),恰好前几天接触到一个使用pyppeteer编写的数据采集代码,看到的一瞬间有些茫然😧,所以就抽空对目前比较流行的几款自动化框架做了一些简单的了解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值