HttpComponents是Apache 旗下的项目。其中有一个HttpClient,即HTTP客户端。
...
...
大多时候我们只需要HttpClient,httpCore是开发服务端的我们可以一般都不需要。
之后我们建立项目,导入jar包,开始开发
第一个示例:
package com.zhi.httpClient;
import java.io.IOException;
import org.apache.http.HttpEntity;
import org.apache.http.ParseException;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
public class Demo {
public static void main(String[] args) {
CloseableHttpClient closeableHttpClient=HttpClients.createDefault(); //1、创建实例
//CloseableHttpClient意思是:可关闭的
HttpGet httpGet=new HttpGet("http://www.huimsoft.com"); //2、创建实例
//限制类型http://www.tuicool.com/
CloseableHttpResponse closeableHttpResponse=null;
try {
closeableHttpResponse=closeableHttpClient.execute(httpGet); //3、执行
} catch (ClientProtocolException e) { //客户端协议异常
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) { //IO异常
// TODO Auto-generated catch block
e.printStackTrace();
}
HttpEntity httpEntity=closeableHttpResponse.getEntity(); //4、获取实体
String str="";
try {
str=EntityUtils.toString(httpEntity, "utf-8"); //获取网页内容,并且指定编码
} catch (ParseException e) { //解析异常
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
System.out.println(str);
//关闭closeableHttpResponse
try {
closeableHttpResponse.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
//关闭closeableHttpClient
try {
closeableHttpClient.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
代码有很多,但是很多是在处理异常,所以我们也可以使用throws在方法上抛出,以简化代码格式,让其更好看。
package com.zhi.httpClient;
import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
public class Test {
public static void main(String[] args) throws Exception {
CloseableHttpClient closeableHttpClient=HttpClients.createDefault(); //1、创建实例
HttpGet httpGet=new HttpGet("http://www.huimsoft.com"); //2、创建请求
CloseableHttpResponse closeableHttpResponse=closeableHttpClient.execute(httpGet); //3、执行
HttpEntity httpEntity=closeableHttpResponse.getEntity(); //4、获取实体
System.out.println(EntityUtils.toString(httpEntity, "utf-8")); //5、获取网页内容,并且指定编码
closeableHttpResponse.close();
closeableHttpClient.close();
}
}
当然我们要封装一个方法,然后使用throws抛出,最好不要在main上直接抛出异常。
其实有些网站读取时是有延时的,这个时候才用try...catch来处理比较好。
HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java net包中已经提供了访问 HTTP 协议的基本功能,但是对于大部分应用程序来说,JDK 库本身提供的功能还不够丰富和灵活。
搞爬虫,主要是用HttpClient模拟浏览器请求第三方站点url,然后响应,获取网页数据,然后用Jsoup来提取我们需要的信息。