XPDF3.04抽取PDF中的中文文本

本文详细介绍了如何在Windows环境下配置xPDF工具,包括下载、解压、路径设置及关键配置文件修改,以及如何使用xPDF将PDF转换为纯文本文件,特别关注了中文字体的支持和配置细节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

开发环境:Windows8.0 X64位          eclipse3.2

版本号:xpdfbin-win-3.04      xpdf-chinese-simplified.tar.gz

下载路径:ftp://ftp.foolabs.com/pub/xpdf/

操作步骤:

  1. 下载xpdf和中文字体,分别解压缩。

  2. 建立xpdf根目录 d:\xpdf,

    (1)并将xpdfbin-win-3.04\bin64目录下所有文件复制到 d:\xpdf 下。

    (2)将xpdf-chinese-simplified 整个文件夹复制到 d:\xpdf 下。

  3. 复制 xpdfbin-win-3.04\doc 路径下的 sample-xpdfrc 文件到 d:\xpdf 下,并改名为 xpdfrc。

    (1)修改文件 xpdfrc 第73行,将 textEncoding UTF-8 注释打开,指定编码为UTF-8,

    (2)并在下面增加 textPageBreaks no 参数,意思是在pdf文档的两页间不加入分行符。 

    (3)在此文件最后增加以下内容,声明中文字体文件

  4. #----- begin Chinese Simplified support package (2011-sep-02)
    cidToUnicode Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
    unicodeMap ISO-2022-CN D:/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
    unicodeMap EUC-CN D:/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap
    unicodeMap GBK D:/xpdf/xpdf-chinese-simplified/GBK.unicodeMap
    cMapDir Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap
    toUnicodeDir D:/xpdf/xpdf-chinese-simplified/CMap
    #displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf 
    #fontFileCC Adobe-GB1 /usr/..../gkai00mp.ttf
    #----- end Chinese Simplified support package
  5. 实验代码

     

  6. @Test
    public void xpdfParser(){
    
         try {
            cmd = "d:\\xpdf\\pdftotext.exe -enc UTF-8 -q D:\\datadir\\Web数据挖掘综述.pdf d:\\datadir\\pdftxtdir\\Web数据挖掘综述.txt ";
            Runtime.getRuntime().exec(cmd);
        } catch (IOException e) {
            e.printStackTrace();
        }
     }
    以上代码不完整,主要是xpdf路径设置可能会有问题,另外就是中文字库文件路径设置必须正确,否则导出的txt文件没有内容。

    若有不清楚的地方,或者发现问题,可回复我,多谢!

转载于:https://my.oschina.net/sanping/blog/395740

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值