使用Python读取pdf文件

本文介绍了如何使用Python的pdfminer3k库来读取和转换PDF文件,特别是针对文本内容。首先,你需要安装这个库,然后导入相关模块。接着,定义一个读取PDF的函数,通过这个函数可以将PDF内容转化为字符串并去除多余的空格。最后,你可以调用这个函数,传入PDF文件路径进行测试。这是一个简单有效的Python PDF处理方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

学习python,不用再为pdf无法转换而烦恼~~~

下面我们介绍python读取pdf文件(主要是针对文字部分)

1、打开环境

2、安装pdfminer3k包

可以使用jupyter notebook进行安装,如下图所示:

安装成功,大功告成第一步。

3、导入相关的包:

from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
import re

如图:

4、定义一个读取pdf文档的函数:

 def read_from_pdf(file_path):
    """
    读取pdf文件
    """
    with open(file_path,'rb') as file:
        resource_manager = PDFResourceManager()
        return_str = StringIO()
        lap_params = LAParams()
        device = TextConverter(resource_manager,return_str,laparams=lap_params)
        process_pdf(resource_manager,device,file)
        device.close()
        content = return_str.getvalue()
        return_str.close()
        return re.sub('\s+','',content) 

 5、使用定义的函数进行测试实验:

read_from_pdf('葡萄酒数据挖掘.pdf')

根据你自己的pdf文件和具体情况进行实验,路径可以是绝对路径和相对路径,任意实验。

实验效果还不错,学习起来吧~~~ 

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值