用pdfplumber读取年报pdf中的表格
思路
年报里的表格是长这样的:

首先循环读取指定文件夹中的年报pdf,然后用pdfplumber进行解析,再根据需要的关键词定位页码,进一步导出表格内容,将表格转化为list按行写入空列表。最后将二维列表转化为dataframe。
完整代码
import pandas as pd
import pdfplumber
import os
#获取pdf文件名
def file_name(file_dir):
for files in os.walk(file_dir):
return files
# 这个函数暂时没用到
def parsePDF(files):
df3 = pd.DataFrame(columns=['A'])
for file in files:
file_path = file_dir+file
with pdfplumber.open(file_path) as pdf:
for i in range(100):
pages = pdf.pages[i]
tt = pages.extract_text()
if tt is None:
continue
elif '分地区' in tt:
l1 = tt.split('\n') #根据换行符将文本拆成list
l2 = []
for l in l1:
l

该博客介绍了如何使用pdfplumber库来读取PDF文件中的表格,特别是年报中的数据。首先,遍历指定文件夹中的PDF,然后通过extract_text()方法寻找关键词‘分地区’来定位页面。接着,利用extract_tables()提取表格,并将内容转化为DataFrame。最后,将数据保存为Excel文件。pdfplumber的使用限制在于它对不可编辑的PDF支持不佳,且基于关键词搜索效率较低。
最低0.47元/天 解锁文章
1253





