其实一般依情况下只要有中文乱码的问题在
inputstreamreader内设置“gbk”就ok了 但是为了通用期间,就得实现实际html编码=解析出html编码。这样就得获得原网页的编码了。
整个网页就是一个HttpEntity,因此只需获得网页中header内的charset即可。代码如下:
String charset = null;
if(entity.getContentType()
!= null) {
HeaderElement values[] = entity.getContentType().getElements();
if(values.length > 0) {
NameValuePair param = values[0].getParameterByName("charset");
if(param != null) {
charset = param.getValue();
}
}
}
日积月累,随手记~