在日常工作中,我们经常需要从PDF文档中提取文本内容。虽然市面上有不少相关工具,但它们要么功能过于复杂,要么使用不够方便。本文将介绍如何使用Python开发一个简单实用的PDF文本提取工具,该工具具有图形界面,操作简单直观。
C:\pythoncode\new\GetTxtFromPdfFromX2Y.py
全部代码
import wx
import PyPDF2
import os
class PDFConverterFrame(wx.Frame):
def __init__(self):
super().__init__(parent=None, title='PDF to TXT Converter', size=(500, 300))
self.pdf_path = ''
self.initUI()
def initUI(self):
panel = wx.Panel(self)
vbox = wx.BoxSizer(wx.VERTICAL)
# 文件选择按钮
file_btn = wx.Button(panel, label='选择PDF文件')
file_btn.Bind(wx.EVT_BUTTON, self.onChooseFile)
vbox.Add(file_btn, 0, wx.ALL | wx.CENTER, 5)
# 显示所选文件路径
self.path_text = wx.TextCtrl(panel, style=wx.TE_READONLY)
vbox.Add(self.path_text, 0, wx.ALL | wx.EXPAND, 5)
# 页面范围输入
hbox1 = wx.BoxSizer(wx.HORIZONTAL)
start_label = wx.StaticText(panel, label='开始页码:')
self.start_page = wx.SpinCtrl(panel, value='1', min=1)
end_label = wx.StaticText(panel, label='结束页码:')
self.end_page = wx.SpinCtrl(panel, value='1', min=1)
hbox1.Add(start_label, 0, wx.ALL | wx.CENTER, 5)
hbox1.Add(self.start_page, 0, wx.ALL, 5)
hbox1.Add(end_label, 0, wx.ALL | wx.CENTER, <