在日常工作中,我们常常需要将PDF文件中的内容提取出来并转换为可编辑的Word文档。虽然市面上有许多现成的工具可以做到这一点,但使用Python编写一个自定义的脚本不仅可以满足特定需求,还能提升我们的编程技能。今天,我将分享一个简单的Python脚本,帮助你将纯文字PDF转化为Word文档。
所需库
在开始之前,请确保你已经安装了以下Python库:
pdfplumber
: 用于从PDF文件中提取文本。python-docx
: 用于创建和修改Word文档。
你可以使用以下命令安装这些库:
pip install pdfplumber python-docx
Python脚本
以下是一个完整的Python脚本,它将从PDF文件中提取文本并将其保存到Word文档中。
import pdfplumber
from docx import Document
def pdf_to_word(pdf_path, word_path):
# 创建一个新的Word文档
doc = Document()
# 打开PDF文件
with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages:
text = page.extract_text()
doc.add_paragraph(text)
# 保存Word文档
doc.save(word_path)
# 示例用法
pdf_path = 'example.pdf'
word_path = 'output.docx'
pdf_to_word(pdf_path, word_path)
详细步骤
- 导入库:我们首先导入
pdfplumber
和python-docx
库。 - 创建Word文档:使用
Document()
方法创建一个新的Word文档对象。 - 打开PDF文件:使用
pdfplumber.open(pdf_path)
方法打开PDF文件。 - 提取文本:遍历PDF的每一页,使用
page.extract_text()
方法提取文本,并将其添加到Word文档中。 - 保存Word文档:使用
doc.save(word_path)
方法保存Word文档。