页面utf-8 乱码
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
gbk正常
<meta http-equiv="Content-Type" content="text/html; charset=gbk" />
这个是字符说明
http://download.oracle.com/javase/6/docs/api/java/nio/charset/Charset.html
如何抓取的时候正常显示呢?
一种办法是同一按字节码来抓取,写到文件中,这样要 i/o file ,增加系统负担
另一种办法就是要根据页面的编码格式适当转码了
下面是我的解决办法
弄了好几个办法,这个最简单
绝对原创,转载请注明 http://tomfish88.iteye.com/
BufferedReader in = new BufferedReader(
new InputStreamReader(
yahoo.openStream(),"utf-8"));
先查看页面的编码格式,页面是啥编码格式,上面的编码格式就用啥,一点乱码没有,搞定
本文介绍了解决网页抓取时出现的UTF-8乱码问题的方法。通过使用正确的字符集进行页面读取,可以避免乱码现象。文章提供了一个简单的示例代码,展示如何根据页面的实际编码格式进行读取。
9486

被折叠的 条评论
为什么被折叠?



