Python爬虫(selenium带你“投机取巧”)

本文介绍了使用selenium解决复杂爬取任务的案例,包括登录验证码、分页抓取和JS异步加载内容的问题。通过selenium模拟浏览器操作,成功完成专利网站的数据抓取,并提供了相关参考资料。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近刚接的任务,帮客户爬一个专利网的信息,具体需求如下:

首先注册账号,用账号密码从首页登录进来后,进入查询界面

这是一个分页显示,例如这个查询结果一共98页,每页有10条数据,每条专利信息点击进去爬取到如下四个字段的内容并写Excel中。

 

爬取难点:

1.登录界面的验证码跟普通验证码不同,难顶!

2.在使用selenium之前,自己用拼接url的方式解决了分页爬取,但是二级页面的url无法获取,因为无法二级页面的url是通过get请求,并夹带token值,本人只在浏览器中找到了cookie,因此无法解决(登录后界面跳转,也未找到调用login方法登录的请求),难顶!!

3.二级界面部分元素值通过js异步加载,通过python的requests库获取的源码,部分变量信息无法显示,难顶!!!

4.从接到任务到提交数据,三天时间,难顶!!!!

不过好在客户只要数据,不要求代码,因此便想来一次剑走偏锋。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值