关于HttpClient 获取页面，出现乱码的问题

最新推荐文章于 2021-02-12 20:48:10 发布

原创最新推荐文章于 2021-02-12 20:48:10 发布 · 4.3k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#string #null #exception #cookies #url #html

HttpClient 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了一种解决使用HttpClient获取网页内容时出现乱码的方法。通过为数据流增加指定的字符集（例如UTF-8），可以正确解析网页内容，避免乱码问题。文章提供了具体的代码实现。

HttpClient乱码，网上有好多方法，在这，仅说下自己获取页面，出现乱码的情情况：

将数据流增加字符集，这样就可以解决这个问题：

如：“BufferedReader br = new BufferedReader(new InputStreamReader(in,"UTF-8"));”

源码如下：

private String getPage(String url,String encode){
//创建HttpClient实例
HttpClient httpClient=new HttpClient();
//设置编码参数
if (encode!=null){
httpClient.getParams().setParameter(HttpMethodParams.HTTP_CONTENT_CHARSET,encode);

}else{
httpClient.getParams().setParameter(HttpMethodParams.HTTP_CONTENT_CHARSET,"gbk");
}
//忽略Cookies
httpClient.getParams().setCookiePolicy(CookiePolicy.IGNORE_COOKIES);

//创建GetMethod实例访问指定URL
GetMethod getMethod = new GetMethod(url);
try{
//访问指定URL并取得返回状态码
int statusCode = httpClient.executeMethod(getMethod);
if (statusCode==200){//返回成功状态码200
//读取页面HTML源码
StringBuffer sb = new StringBuffer();
InputStream in = getMethod.getResponseBodyAsStream();
BufferedReader br = new BufferedReader(new InputStreamReader(in,"UTF-8"));
String line;
while((line=br.readLine())!=null){
sb.append(line);
}
if(br!=null)br.close();
return sb.toString();
}else{
return null;
}
}catch(Exception ex){
ex.printStackTrace();
return null;
}
}