WebMagic爬虫实现登陆状态保存

本文介绍如何在WebMagic框架中利用Apache HttpClient实现登录状态下的网络请求,避免手动管理Cookies,通过自定义Downloader并公开HttpClient获取方法,实现全局登陆状态保持。

由于WebMagic的网络请求是通过Apache HttpClient请求,只需要拿到该对象进行登陆处理,后续的请求再使用同一个HttpClient对象请求,即可实现登陆状态下的请求,登陆相关的cookies不需要自己进行管理,HttpClient会自动处理

查看源码后,发现HttpClient的在HttpClientDownloader中使用

@ThreadSafe
public class HttpClientDownloader extends AbstractDownloader {
    private Logger logger = LoggerFactory.getLogger(this.getClass());
    private final Map<String, CloseableHttpClient> httpClients = new HashMap();
    private HttpClientGenerator httpClientGenerator = new HttpClientGenerator();
    private HttpUriRequestConverter httpUriRequestConverter = new HttpUriRequestConverter();
    private ProxyProvider proxyProvider;
    private boolean responseHeader = true;

    public HttpClientDownloader() {
    }

由源码可知CloseableHttpClient以Map的形式存在该downloader中,且为private变量,且getHttpClient方法也是private方法,无法从外部获取该对象进行登陆等操作

为解决这个问题,将HttpClientDownloader复制出来,继承AbstractDownloader,修改get方法为public即可

public CloseableHttpClient getHttpClient(Site site)

得到自己的类后,启动爬虫时,setDownloader即可

MyDownloader myDownloader = new MyDownloader();
Spider spider = Spider.create(new GithubRepoPageProcessor()).setDownloader(myDownloader).addUrl("https://github.com/code4craft").thread(5);
CloseableHttpClient httpClient = myDownloader.getHttpClient(spider.getSite());
//TODO 使用httpClient进行登录
//...
//...
spider.run();

在执行爬虫前,可以先通过getHttpClient得到HttpClient对象进行登陆,该downloader可作为全局变量,在各个PageProcessor中使用,即可保存登陆状态

 

转载于:https://my.oschina.net/u/2267612/blog/2992144

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值