前言
平时做爬虫比较多,我的第一个爬虫,就是用Java的jsoup写的。爬虫说白了就是对各种网页进行请求,而发起请求就需要用到HTTP的工具库。今天就来枚举一下Java中常用的各种工具库,从代码层面分析它们的优点和缺点。
HttpURLConnection
HttpURLConnection是Java标准库java.net自带的原生HTTP客户端,Jsoup就是基于HttpURLConnection实现的,我们这里使用HttpURLConnection来实现一个简单的请求,来探究他的用法。
String start_url = "http://www.baidu.com";
URL url = new URL(start_url);
HttpURLConnection con = (HttpURLConnection) url.openConnection();
con.setRequestMethod("GET");
int status = con.getResponseCode();
if (status == HttpURLConnection.HTTP_OK) {
BufferedReader in = new BufferedReader(new InputStreamReader(con.getInputStream()));
String inputLine;
StringBuilder content = new StringBuilder();
while (