Python如何用pdfplumber读取解析pdf文件

ToMiky明明

已于 2023-07-14 11:24:49 修改

阅读量1.3k

点赞数 2

文章标签： python pdf 开发语言

于 2023-07-13 17:14:32 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_43404930/article/details/131581987

版权

本文介绍了如何安装和使用pdfplumber库来处理PDF文件，包括升级pip以确保安装成功，以及遍历PDF页面，提取文本和表格内容的方法。示例代码展示了从PDF中获取每个页面的文本，提取所有表格，并对表格数据进行操作的步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.首先安装pdfplumber库：

pip install pdfplumber

2.如果安装失败，首先应该升级pip，用低版本的pip可能导致pdfplumber安装不成功：

python -m pip install --upgrade pip

# coding:utf-8

import pdfplumber

with pdfplumber.open('./test.pdf') as pdf:
    # 遍历每个页面
    for page in pdf.pages:
        # 获取当前页面的全部文本信息，包括表格中的文字,没有内容则打印None
        print(page.extract_text())
        # 提取当前页面中的所有表格
        print(page.extract_tables())   
        #没有表格，则返回[]，有表格则返回[[[row1],[row2]...],[[row1],[row2]...]...]
        # 遍历提取到的每个表
        for table in page.extract_tables():
            print(table) # [[row1],[row2]...]
            # 遍历每一行数据
            for row in table:
                print(row) # ['xxx','xxx'...]

3. 如果不用with方法，则首先要打开一个pdf：