Python 读取PDF文件

最新推荐文章于 2025-10-19 22:00:23 发布

原创最新推荐文章于 2025-10-19 22:00:23 发布 · 1.9k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#PDF

办公自动化专栏收录该内容

16 篇文章

订阅专栏

本文详细介绍如何使用pdfminer3k库从PDF文档中提取文本，并将其转换为TXT格式。通过定义函数Pdf2Txt，实现了PDF文档的解析、文本提取及保存过程。

首先需要安装 pdfminer3k 库：

pip install pdfminer3k

from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import *
from pdfminer.converter import PDFPageAggregator


path = r"C:\Users\Administrator\Desktop\a.pdf"
toPath = r"C:\Users\Administrator\Desktop\a.txt"

def Pdf2Txt(Path,Save_name):
    #来创建一个pdf文档分析器
    parser = PDFParser(Path)
    #创建一个PDF文档对象存储文档结构
    document = PDFDocument(parser)
    # 检查文件是否允许文本提取
    if not document.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # 创建一个PDF资源管理器对象来存储共赏资源
        rsrcmgr=PDFResourceManager()
        # 设定参数进行分析
        laparams=LAParams()
        # 创建一个PDF设备对象
        # device=PDFDevice(rsrcmgr)
        device=PDFPageAggregator(rsrcmgr,laparams=laparams)
        # 创建一个PDF解释器对象
        interpreter=PDFPageInterpreter(rsrcmgr,device)
        # 处理每一页
        for page in PDFPage.create_pages(document):
            interpreter.process_page(page)
            # 接受该页面的LTPage对象
            layout=device.get_result()
            for x in layout:
                if(isinstance(x,LTTextBoxHorizontal)):
                    with open('%s'%(Save_name),'a') as f:
                        f.write(x.get_text()+'\n')

Path = open(path, 'rb')
Pdf2Txt(Path, toPath)