ApacheNutch显示网页快照时,如果有汉字,可能会出现乱码。比如,原网页是用gb2312编码的,显示时就不能正常显示。
解决方法是:当不能正常取到Encoding时,就从Content-Type中获取。
具体为:修改cached.jsp文件
把
else
content = new String(bean.getContent(details));
修改为:
else {
int index = contentType.indexOf("charset=");
encoding = "utf-8";
if(index>=0){
encoding = contentType.substring(index+8);
}
content = new String(bean.getContent(details),encoding);
}
解决方法是:当不能正常取到Encoding时,就从Content-Type中获取。
具体为:修改cached.jsp文件
把
修改为: