HttpClient 4.x 获得html 中文乱码的问题

最新推荐文章于 2021-11-23 15:43:08 发布

原创最新推荐文章于 2021-11-23 15:43:08 发布 · 830 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#html #null #header #string

网站专栏收录该内容

6 篇文章

订阅专栏

本文介绍了一种解决HTML页面中文乱码的方法，通过获取HTTP响应头中的字符集信息来确定正确的编码方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

   其实一般依情况下只要有中文乱码的问题在
 inputstreamreader内设置“gbk”就ok了 但是为了通用期间，就得实现实际html编码=解析出html编码。这样就得获得原网页的编码了。

整个网页就是一个HttpEntity，因此只需获得网页中header内的charset即可。代码如下：

String charset = null;

if(entity.getContentType()
 != null) {

HeaderElement values[] = entity.getContentType().getElements();

if(values.length > 0) {

NameValuePair param = values[0].getParameterByName("charset");

if(param != null) {

charset = param.getValue();

}

}

} 

日积月累，随手记~