【办公自动化】用pdfplumber读取年报pdf中的表格

最新推荐文章于 2025-11-04 15:15:00 发布

原创

最新推荐文章于 2025-11-04 15:15:00 发布 · 1.9k 阅读

32 ·

CC 4.0 BY-SA版权

文章标签：

#python #excel

该博客介绍了如何使用pdfplumber库来读取PDF文件中的表格，特别是年报中的数据。首先，遍历指定文件夹中的PDF，然后通过extract_text()方法寻找关键词‘分地区’来定位页面。接着，利用extract_tables()提取表格，并将内容转化为DataFrame。最后，将数据保存为Excel文件。pdfplumber的使用限制在于它对不可编辑的PDF支持不佳，且基于关键词搜索效率较低。

用pdfplumber读取年报pdf中的表格

思路

年报里的表格是长这样的：

在这里插入图片描述

首先循环读取指定文件夹中的年报pdf，然后用pdfplumber进行解析，再根据需要的关键词定位页码，进一步导出表格内容，将表格转化为list按行写入空列表。最后将二维列表转化为dataframe。

完整代码

import pandas as pd
import pdfplumber
import os

#获取pdf文件名
def file_name(file_dir):
    for files in os.walk(file_dir):
        return files

# 这个函数暂时没用到
def parsePDF(files):
    df3 = pd.DataFrame(columns=['A'])
    for file in files:
        file_path = file_dir+file
        with pdfplumber.open(file_path) as pdf:
            for i in range(100):
                pages = pdf.pages[i]
                tt = pages.extract_text()
                if tt is None:
                    continue
                elif '分地区' in tt:
                    l1 = tt.split('\n')  #根据换行符将文本拆成list
                    l2 = []
                    for l in l1:
                        l