使用Python爬取PDF中的表格
import pdfplumber
import pandas as pd
zmx_pdf = pdfplumber.open("D:/engineering space/raw file/pdf/prope_zmx.pdf")
page_2 = zmx_pdf.pages[3]
table_1 = page_2.extract_table()
df_1 = pd.DataFrame(table_1)
# list_1 = np.array(table_1)
# list_1 = list_1.tolist()
print(df_1)
# df_1.to_excel('D:/engineering space/raw file/pdf/test2.xlsx')
本文介绍了一种使用Python从PDF文件中提取表格的方法。通过pdfplumber和pandas库,可以方便地将PDF中的表格数据转换为DataFrame格式,便于进一步的数据处理与分析。
4129

被折叠的 条评论
为什么被折叠?



