利用Java来抓取网页的时候,页面的字符集编码特别重要,弄错了的话很有可能抓到的是乱码。俺写的这个代码在一般情况下还是能够正确识别页面的charset的,只是效率有点低。
Java网页抓取与字符集识别
本文介绍了一个使用Java实现的网页抓取程序,该程序能有效识别目标网页的字符集编码,避免抓取过程中出现乱码问题。通过分析HTTP头部信息及HTML内容来确定字符集。
利用Java来抓取网页的时候,页面的字符集编码特别重要,弄错了的话很有可能抓到的是乱码。俺写的这个代码在一般情况下还是能够正确识别页面的charset的,只是效率有点低。

被折叠的 条评论
为什么被折叠?