XPDF3.04抽取PDF中的中文文本

最新推荐文章于 2020-01-15 09:18:19 发布

weixin_34117211

最新推荐文章于 2020-01-15 09:18:19 发布

阅读量277

点赞数

CC 4.0 BY-SA版权

文章标签： python 开发工具 runtime

原文链接：https://my.oschina.net/sanping/blog/395740

本文详细介绍了如何在Windows环境下配置xPDF工具，包括下载、解压、路径设置及关键配置文件修改，以及如何使用xPDF将PDF转换为纯文本文件，特别关注了中文字体的支持和配置细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2019独角兽企业重金招聘Python工程师标准>>>

开发环境：Windows8.0 X64位 eclipse3.2

版本号：xpdfbin-win-3.04 xpdf-chinese-simplified.tar.gz

下载路径：ftp://ftp.foolabs.com/pub/xpdf/

操作步骤：

下载xpdf和中文字体，分别解压缩。
建立xpdf根目录 d:\xpdf，
（1）并将xpdfbin-win-3.04\bin64目录下所有文件复制到 d:\xpdf 下。
（2）将xpdf-chinese-simplified 整个文件夹复制到 d:\xpdf 下。
复制 xpdfbin-win-3.04\doc 路径下的 sample-xpdfrc 文件到 d:\xpdf 下，并改名为 xpdfrc。
（1）修改文件 xpdfrc 第73行，将 textEncoding UTF-8 注释打开，指定编码为UTF-8，
（2）并在下面增加 textPageBreaks no 参数，意思是在pdf文档的两页间不加入分行符。
（3）在此文件最后增加以下内容，声明中文字体文件

#----- begin Chinese Simplified support package (2011-sep-02)
cidToUnicode Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
unicodeMap ISO-2022-CN D:/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
unicodeMap EUC-CN D:/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap
unicodeMap GBK D:/xpdf/xpdf-chinese-simplified/GBK.unicodeMap
cMapDir Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap
toUnicodeDir D:/xpdf/xpdf-chinese-simplified/CMap
#displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf 
#fontFileCC Adobe-GB1 /usr/..../gkai00mp.ttf
#----- end Chinese Simplified support package

实验代码

@Test
public void xpdfParser(){

     try {
        cmd = "d:\\xpdf\\pdftotext.exe -enc UTF-8 -q D:\\datadir\\Web数据挖掘综述.pdf d:\\datadir\\pdftxtdir\\Web数据挖掘综述.txt ";
        Runtime.getRuntime().exec(cmd);
    } catch (IOException e) {
        e.printStackTrace();
    }
 }

以上代码不完整，主要是xpdf路径设置可能会有问题，另外就是中文字库文件路径设置必须正确，否则导出的txt文件没有内容。

若有不清楚的地方，或者发现问题，可回复我，多谢！

转载于:https://my.oschina.net/sanping/blog/395740