WebCollector可以自定义http请求,WebCollector的http请求由Requester完成,BreadthCrawler和RamCrawler本身就实现了Requester接口,默认情况下它们使用自身作为Requester。
自定义http请求只要override它们的getResponse方法即可。
下面例子代码演示了如何在WebCollector中将部分页面的http请求方式改为POST方法:
import cn.edu.hfut.dmic.webcollector.model.CrawlDatum;
import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;
import cn.edu.hfut.dmic.webcollector.model.Links;
import cn.edu.hfut.dmic.webcollector.model.Page;
import cn.edu.hfut.dmic.webcollector.net.HttpRequest;
import cn.edu.hfut.dmic.webcollector.net.HttpResponse;
import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler;
import java.net.HttpURLConnection;

WebCollector的http请求由Requester完成,用户可以通过覆盖响应方法实现自定义请求。以下示例展示了如何将部分页面请求方式从GET更改为POST,同时文章呼吁支持WebCollector的开发者工作。
最低0.47元/天 解锁文章
5896

被折叠的 条评论
为什么被折叠?



