用PDFMiner从PDF中提取文本文字

最新推荐文章于 2025-06-14 12:39:53 发布

转载最新推荐文章于 2025-06-14 12:39:53 发布 · 1.4k 阅读

2 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/vincent-vg/p/6827031.html

文章标签：

#python #java

本文档详细介绍了如何下载并安装PDFMiner，并提供了一段Python代码示例来演示如何利用PDFMiner从PDF文件中提取文本内容。此外，还展示了如何处理中文字符以避免乱码问题。

1、下载并安装PDFMiner

　　从https://pypi.python.org/pypi/pdfminer/下载PDFMineer

wget https://pypi.python.org/packages/57/4f/e1df0437858188d2d36466a7bb89aa024d252bd0b7e3ba90cbc567c6c0b8/pdfminer-20140328.tar.gz#md5=dfe3eb1b7b7017ab514aad6751a7c2ea

　　加压并安装

tar -zxvf pdfminer-20140328.tar.gz
cd pdfminer-20140328/
make cmap　　#防止中文乱码，否则处理中文会出现一大堆（CID:xxx）
sudo python setup.py install

2、提取文本文字

from cStringIO import StringIO
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
import sys
import string

def convert_pdf_2_text(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    with open(path, 'rb') as fp:
        for page in PDFPage.get_pages(fp, set()):
            interpreter.process_page(page)
        text = retstr.getvalue()
    device.close()
    retstr.close()
    return text

text = convert_pdf_2_text(sys.argv[1])
open('real?.txt','wb').write(text)