python 用pandleocr批量图片读取表格并且保存为excel

本文介绍了如何使用Python安装OpenCV、PaddlePaddle及LayoutParser库,进行表格结构识别。首先通过pip安装所需库,然后下载并安装LayoutParser的whl文件。接着,导入相关模块,读取图片,利用PaddleOCR的PPStructure进行表格识别,并保存结果。如果遇到.NET C++缺失的问题,需前往官网下载。虽然识别效果可能有待提升,但可以通过训练自定义模型来优化。博客提供了PaddlePaddle的官方文档链接,读者可以进一步学习和提升。
该文章已生成可运行项目,

导包,这个很重要稍微有点难度噢

pip install opencv-python

pip install paddlepaddle

需要下载一个文件layoutparser-0.0.0-py3-none-any.whl,点击下载

把他保存到我们的文件里面
在这里插入图片描述

然后

pip install layoutparser-0.0.0-py3-none-any.whl

再导包

pip install paddleocr

如果会报错,咱就是说电脑没有安装.NET c++这个的话
官网地址记住是c++

然后创建一个文件夹存放图片,我写的代码的文件名是img
在这里插入图片描述

import cv2
from paddleocr import PPStructure,draw_structure_result,save_structure_res

table_engine = PPStructure(show_log=True)

import os

is_exists = os.listdir("img")#读取图片文件位置
print(is_exists)
for i in is_exists:
    img_path = 'img/'+i
    img = cv2.imread(img_path)
    result = table_engine(img)
    print(result)
    save_structure_res(result, 'where', 'ex01')#存放位置
    print(i)

下面我们以随机百度的图片为主进行测试
在这里插入图片描述
这里也是选取了两张幸运儿
在这里插入图片描述
结果出来了
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
结果嘛可能还是不够好噢,如果说想追求更好的识别效果,可以自己下载模型进行训练
附上官网地址点击进入paddlepaddle文档
在这里插入图片描述
最后有什么问题欢迎留言或者私信能解决的尽量解决,不能的嘛那就,没办法喽

本文章已经生成可运行项目
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

南师大蒜阿熏呀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值