绪论
很久没有做爬虫了,最近在公司做数据的时候整合某个数据时发现给的数据是从网站上进行下载的,但是领导的要求是定时从网站上下载做更新,这就需要我重新把爬虫的知识捡起来了。简单的记录一下处理的思路:
要爬取的网站是需要登录的,而且内部html代码有很多的JavaScript脚本,登录授权跨越了好几个网站,想要靠requests直接找到登录链接,基本上没可能
登录界面大概长这样:
html大概长这样:
抓包到的下载链接大概长这样:
-
可以发现直接抓去登陆链接不现实,中间转了很多层
-
虽然能够看到请求列表的json返回,但是试了之后发现即便拿到cookie也没办法请求到json,不知道发生了什么问题
-
尝试了一下构造form表单请求下载链接,发现可行
爬虫思路
于是有了以下方案:
- 使用selenium+chromdriver进行模拟登录
- 对登录之后的界面进行标签查找,搜索出要下载的所有文件名