PDFBox看起来非常的方便,它的API功能强大。甚至能和Lucene进行无缝的结合。但是它有一个致命的弱点,就是它不支持中文。要提取中文的文本,可以采用另一个非常出色的工具xpdf。
下载的是: xpdf-3.02pl4-win32.zip包
另外还需要一个语言包: xpdf-chinese-simplified.tar.gz,支持中文
工作路径的设置:
把 xpdf-3.02pl4-win32.zip包解压到 E:\PDFBox\xpdf(路径可以自己设定)
把 xpdf-chinese-simplified.tar.gz解压到 E:\PDFBox\xpdf\xpdf-chinese-simplified(必须要放在上面解压的目录里面)</

本文介绍了如何下载和配置xpdf工具,包括xpdf的win32版本和中文语言包,详细说明了解压目录结构和设置配置文件xpdfrc的过程,以支持中文转换。通过修改xpdfrc的文本输出控制,避免分页符号,并指定UTF-8编码。最后,展示了如何在Java中创建一个XpdfToText类来调用转换程序。
最低0.47元/天 解锁文章
340

被折叠的 条评论
为什么被折叠?



