使用Python开发PDF文本提取工具

最新推荐文章于 2025-12-04 22:56:41 发布

原创

最新推荐文章于 2025-12-04 22:56:41 发布 · 859 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#python #pdf #txt #页码 #转换

在日常工作中，我们经常需要从PDF文档中提取文本内容。虽然市面上有不少相关工具，但它们要么功能过于复杂，要么使用不够方便。本文将介绍如何使用Python开发一个简单实用的PDF文本提取工具，该工具具有图形界面，操作简单直观。
C:\pythoncode\new\GetTxtFromPdfFromX2Y.py

全部代码

import wx
import PyPDF2
import os

class PDFConverterFrame(wx.Frame):
    def __init__(self):
        super().__init__(parent=None, title='PDF to TXT Converter', size=(500, 300))
        self.pdf_path = ''
        self.initUI()
        
    def initUI(self):
        panel = wx.Panel(self)
        vbox = wx.BoxSizer(wx.VERTICAL)
        
        # 文件选择按钮
        file_btn = wx.Button(panel, label='选择PDF文件')
        file_btn.Bind(wx.EVT_BUTTON, self.onChooseFile)
        vbox.Add(file_btn, 0, wx.ALL | wx.CENTER, 5)
        
        # 显示所选文件路径
        self.path_text = wx.TextCtrl(panel, style=wx.TE_READONLY)
        vbox.Add(self.path_text, 0, wx.ALL | wx.EXPAND, 5)
        
        # 页面范围输入
        hbox1 = wx.BoxSizer(wx.HORIZONTAL)
        start_label = wx.StaticText(panel, label='开始页码:')
        self.start_page = wx.SpinCtrl(panel, value='1', min=1)
        end_label = wx.StaticText(panel, label='结束页码:')
        self.end_page = wx.SpinCtrl(panel, value='1', min=1)
        
        hbox1.Add(start_label, 0, wx.ALL | wx.CENTER, 5)
        hbox1.Add(self.start_page, 0, wx.ALL, 5)
        hbox1.Add(end_label, 0, wx.ALL | wx.CENTER, <