Python中的PDF文本提取：使用fitz和wxPython库（带进度条）

原创

已于 2023-08-05 09:32:21 修改 · 3k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#pdf #python #提取 #pymupdf

于 2023-08-05 09:30:43 首次发布

本文介绍了一个使用Python和wxPython编写的工具，通过FilePickerCtrl和DirPickerCtrl选择PDF和输出路径，利用fitz库提取PDF文本，并实时显示进度。

引言：

处理大量PDF文档的文本提取任务可能是一项繁琐的工作。本文将介绍一个使用Python编写的工具，可通过简单的操作一键提取大量PDF文档中的文本内容，极大地提高工作效率。

import wx
import pathlib
import fitz

class PDFExtractor(wx.Frame):
    def __init__(self, parent, title):
        super(PDFExtractor, self).__init__(parent, title=title, size=(400, 200))
        
        panel = wx.Panel(self)
        vbox = wx.BoxSizer(wx.VERTICAL)
        
        self.file_picker = wx.FilePickerCtrl(panel, style=wx.FLP_DEFAULT_STYLE | wx.FLP_USE_TEXTCTRL)
        self.save_picker = wx.DirPickerCtrl(panel, style=wx.DIRP_DEFAULT_STYLE | wx.DIRP_USE_TEXTCTRL)
        self.extract_button = wx.Button(panel, label="提取")
        
        self.extract_button.Bind(wx.EVT_BUTTON, self.on_extract)
        
        vbox.Add(wx.StaticText(panel, label="选择PDF文件:"), 0, wx.ALL | wx.EXPAND, 5)
        vbox.Add(self.file_picker, 0, wx.ALL | wx.EXPAND, 5)
        vbox.Add(wx.StaticText(panel, label="选择输出路径:"), 0, wx.ALL | wx.EXPAND, 5)