应用需求
将PDF文件内的文字提取出来,并保存在文本文档中。
应用第三方库
pdfplumber
安装:pip install pdfplumber
代码实现
import pdfplumber # 导入第三方库
with pdfplumber.open(r'C:\Users\文文\Desktop\初级会计\初级会计第一套.pdf') as pdf: # 打开目标PDF文档
page01 = pdf.pages[0] # 指定页码
text = page01.extract_text() # 读取PDF文档文字
text_file = open(r'C:\Users\文文\Desktop\初级会计.txt', mode='a', encoding='utf-8') # 以a方式打开文本文档
text_file.write(text) # 将PDF文档读取的文字写入text_file
拓展
Python3 open() 函数
Python open() 函数用于打开一个文件,并返回文件对象,在对文件进行处理过程都需要使用到这个函数,如果该文件无法被打开,会抛出 OSError。
注意:使用 open() 函数一定要保证关闭文件对象,即调用 close() 函数。
open() 函数常用形式是接收两个参数:文件名(file)和模式(mode)。
完整的语法格式为:
open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
参数说明:
- file: 必需,文件路径(相对或者绝对路径)。
- mode: 可选,文件打开模式
- buffering: 设置缓冲
- encoding: 一般使用utf8
- errors: 报错级别
- newline: 区分换行符
- closefd: 传入的file参数类型
mode 参数有:
默认为文本模式,如果要以二进制模式打开,加上 b 。