关于Heritrix的Extractor中文乱码

最新推荐文章于 2025-04-18 20:42:15 发布

最新推荐文章于 2025-04-18 20:42:15 发布 · 180 阅读

heritrix 专栏收录该内容

13 篇文章

订阅专栏

本文介绍了一个从org.archive.crawler.extractor.Extractor继承的子类，并详细解释了如何在提取过程中处理中文乱码的问题。通过设置正确的字符编码（如gb2312），可以确保从CrawlURI获取的内容正确显示。

继承从org.archive.crawler.extractor.Extractor的子类，在extract方法中可以从参数CrawlURI中取出要解析的内容。

curi.getHttpRecorder().getReplayCharSequence.toString()

有中文时，不做处理会输出乱码。可以在取到的HttpRecorder后设置编码：


HttpRecorder hr = curi.getHttpRecorder();

if ( hr == null ) {

    throw new IOException( "Why is recorder null here?" );

}

hr.setCharacterEncoding( "gb2312" );

cs = hr.getReplayCharSequence();

System.out.println( cs.toString() );