最近刚接的任务,帮客户爬一个专利网的信息,具体需求如下:
首先注册账号,用账号密码从首页登录进来后,进入查询界面
这是一个分页显示,例如这个查询结果一共98页,每页有10条数据,每条专利信息点击进去爬取到如下四个字段的内容并写Excel中。
爬取难点:
1.登录界面的验证码跟普通验证码不同,难顶!
2.在使用selenium之前,自己用拼接url的方式解决了分页爬取,但是二级页面的url无法获取,因为无法二级页面的url是通过get请求,并夹带token值,本人只在浏览器中找到了cookie,因此无法解决(登录后界面跳转,也未找到调用login方法登录的请求),难顶!!
3.二级界面部分元素值通过js异步加载,通过python的requests库获取的源码,部分变量信息无法显示,难顶!!!
4.从接到任务到提交数据,三天时间,难顶!!!!
不过好在客户只要数据,不要求代码,因此便想来一次剑走偏锋。