原文地址:http://www.cnblogs.com/agileblog/p/3615250.html
关于爬虫乱码有很多群友的各式各样的问题,下边简单总结下关于网络爬虫的乱码处理。注意,这里不仅是中文乱码,还包括一些如日文、韩文 、俄文、藏文之类的乱码处理,因为他们的解决方式 是一致的,故在此统一说明。
网络爬虫,有两种选择,一是选择nutch、hetriex,二是自写爬虫,两者在处理乱码时,原理是一致的,但前者处理乱码时,要看懂源码后进行修改才可以,所以要废劲一些;而后者更自由方便,可以在编码处理时进行处理。这也是很多人在用框架写爬虫会出现各种各样的乱码时,无从下手的原因了,像比较成熟的nutch在处理乱码时也是比较简单的,所以依然会出现乱码,所以需要二次开发才能真正解决乱码问题。
1、网络爬虫出现乱码的原因

本文总结了网络爬虫处理乱码的方法,包括源网页编码的判断,如HTTP Header、meta charset和网页头中的定义,以及特殊情况的处理。通过正确确定源网页编码并进行转换,可以有效解决包括中文在内的多种语言乱码问题。在基于nutch1.6的二次开发中,编码正确率高达99.99%。
最低0.47元/天 解锁文章
1708

被折叠的 条评论
为什么被折叠?



