python办公自动化| PDF文档提取文字

这篇博客介绍了如何使用Python的pdfplumber库来提取PDF文件中的文字内容,并将其保存到文本文档。通过示例代码展示了如何打开PDF,读取指定页面的文字,然后将这些文字写入到UTF-8编码的文本文件中。博客还提到了Python的open()函数的基本用法,强调了文件操作后需确保关闭文件的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

应用需求

将PDF文件内的文字提取出来,并保存在文本文档中。

应用第三方库

pdfplumber

安装:pip install pdfplumber

代码实现

import pdfplumber  # 导入第三方库
with pdfplumber.open(r'C:\Users\文文\Desktop\初级会计\初级会计第一套.pdf') as pdf:  # 打开目标PDF文档
    page01 = pdf.pages[0]  # 指定页码
    text = page01.extract_text()  # 读取PDF文档文字
    text_file = open(r'C:\Users\文文\Desktop\初级会计.txt', mode='a', encoding='utf-8')  # 以a方式打开文本文档
    text_file.write(text)  # 将PDF文档读取的文字写入text_file

拓展

Python3 open() 函数

Python open() 函数用于打开一个文件,并返回文件对象,在对文件进行处理过程都需要使用到这个函数,如果该文件无法被打开,会抛出 OSError

注意:使用 open() 函数一定要保证关闭文件对象,即调用 close() 函数。

open() 函数常用形式是接收两个参数:文件名(file)和模式(mode)

完整的语法格式为:

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)

参数说明:

  • file: 必需,文件路径(相对或者绝对路径)。
  • mode: 可选,文件打开模式
  • buffering: 设置缓冲
  • encoding: 一般使用utf8
  • errors: 报错级别
  • newline: 区分换行符
  • closefd: 传入的file参数类型

mode 参数有:
在这里插入图片描述

默认为文本模式,如果要以二进制模式打开,加上 b 。

关注我

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值