OCR识别_吾名招财的博客-优快云博客

OCR识别

文章平均质量分 74

主要介绍一些开源OCR识别框架的配置及使用

文章数：12 文章阅读量：4012 文章收藏量：5

作者: 吾名招财

工科学硕，研究方向机器视觉，爱好较广泛，读研期间对其它方向也有所涉猎（如区块链、网络渗透、软件逆向、数据分析等）。毕业后主要从事视觉相关工作，最开始是搞机器视觉的算法研发，传统算法定位识别、缺陷检测，深度学习目标检测、实例分割，OCR文本识别、文本检测，3D视觉识别拆垛等，拥有丰富的工业视觉实际项目经验。现在研究三维重建相关内容。

展开

多onnx模型导出合并调研（文本检测+方向分类+文本识别）

部署端只用一个模型实现文本检测及文本识别。目前是文本检测、文本方向分类、文本识别三个模型分别训练，然后部署的话需要三个分别部署并使用自定义流程连接，现在需要想将其三个模型按照顺序合并成为一个模型，然后再用这一个模型部署（方便部署），此时仅仅是简化了部署流程。一种是上面的，另一种是端到端的算法（PGNET），这是一个算法，这个算法同时进行文本检测及文本识别输出，最终一个模型训练输出，因后续要对文本识别通用模型进行部署，故此端到端方法暂时舍弃。

原创 2025-03-27 21:58:08 · 227 阅读 · 0 评论
使用openvino加速部署paddleocr文本识别模型（C++版）

训练之前没注意在txt文件里面多了一个空行，所以总的字符就是1+10+26+1=38，在训练阶段会被自动在起始位填充一个blank字段，在解析输出的时候，需要排除第一个位置的预测的原因就在这里。另外的字符的解析，例如把输出存为40行39列的图片，则按行找最大值的位置索引，一共有40个索引值，判断第一个位置索引值是不是零（为零表示预测为blank字段），如果不是则保留索引，从第二个开始依次和前面的索引比较，如果和前一个索引值不同，则保留索引，当遍历完40个索引的时候就得到了最后的索引表。

原创 2024-12-30 19:37:50 · 322 阅读 · 0 评论
python+panddleocr+文本识别训练导出测试

模型下载之后为两个压缩包，在PaddleOCR-realase-2.6根目录下新建文件夹inference_model，并将压缩包解压到该文件夹下，如下图所示。打开anaconda终端，进入PaddleOCR-release-2.6目录下激活环境并输入以下指令。PaddleOCR训练属于自己的模型详细教程（从打标，制作数据集，训练到应用，以行驶证识别为例。使用预训练模型训练500轮次，效果还不错，大概1000轮次的时候基本都能准确识别了。注意要下载2.6版本的PaddleOCR-release-2.6。

原创 2024-12-29 20:21:43 · 232 阅读 · 0 评论
使用openvino加速部署paddleocr文本方向分类模型（C++版）

【代码】使用openvino加速部署paddleocr文本方向分类模型（C++版）

原创 2024-12-26 20:47:17 · 148 阅读 · 0 评论
python+panddleocr+文本方向分类训练导出测试

在PaddleOCR系统内，文字检测之后得到的文本行图片经过仿射变换之后送入识别模型，此时只需要对文字进行一个0和180度的角度分类，因此PaddleOCR内置的文本方向分类器只支持了0和180度的分类。也就是说在进行文本检测的时候必须要保持所有的文本接近水平方向（），可以文本检测出来结果后再用方向分类器分类，然后再文本识别。方向分类器也是个模型也可能训练输出的，这里只有0、180两个方向的判断（）方向分类器能比较准确的识别接近水平的。文本方向分类器相关模型（必看）原始cls数据集格式。

原创 2024-12-26 20:36:41 · 717 阅读 · 0 评论
使用openvino加速部署paddleocr文本检测模型（C++版）

图像经过openvino的推理后，其输出也是一张960*960的单通道掩膜图像，其内部像素值为分值，通过分数阈值来对其分割可得到二值化图像，如下，对二值化图像再进行轮廓查找然后求得外接矩形作为文本检测框，最后再按照比列缩放回去即可。DBNet是基于分割的文本检测算法。缺点在于阈值的选取非常关键。这里的后处理按照自己的简单来进行截取的，并没有真正的使用DB的后处理得到检测框，这里毕竟只是取外接矩形检测框即可，故先用此简单处理了，后续遇到弯曲文本检测等时再进行相关的处理。，其归一化的方式是完全一致的。

原创 2024-12-25 20:16:19 · 581 阅读 · 0 评论
paddleocr训练模型转inference模型之后预测结果不一致及部分训练失败问题

这里需要注意，使用配置文件导出为inference模型的时候其模型在ppocr部署的时候会有问题。这是其推理时的前处理后处理问题导致的，所以需要导出的时候将此参数修改了也。最终的解决方案，还是修改预处理的输入尺寸大小来进行，此时paddleocrV3就可以了。下方在判断tatio_list的时候无法得到对应的1.0故失败，添加一行代码即可。默认配置文件都是（960*960）

原创 2024-12-25 20:15:09 · 313 阅读 · 0 评论
python+panddleocr+文本检测自定义数据集训练及测试

【代码】python+panddleocr+文本检测自定义数据集训练及测试。

原创 2024-12-24 21:23:37 · 377 阅读 · 0 评论
panddleocr-文本检测+文本方向分类+文本识别整体流程

文本检测的最小外接矩形框根据长宽可以看到±90度的角度，而再加入文本方向分类就能扩展到±180度的角度。通过文本检测–>文本方向分类–>文本识别，即可识别出0~360度的旋转文本。

原创 2024-12-23 20:25:42 · 118 阅读 · 0 评论
MMOCR环境配置及训练测试（详细）

Config目录下包含文本识别、文本检测、关键信息提取的各个算法配置文件以sar为例如下对应的数据集配置。

原创 2024-12-16 20:04:21 · 224 阅读 · 0 评论
cnocr配置及训练测试

import cv2import osimport csv#拆分列表"""将列表按照指定比例和数量拆分成子列表:param lst: 待拆分列表:param ratios: 每个子列表的元素占比，由小数表示的列表:param num_splits: 子列表的数量:return: 拆分后的子列表组成的列表"""= 1:start = 0#遍历该目录下的所有图片文件#读取保存图像#读取txt文件并保存到tsv#中间用tab隔开（字符空格隔开，使用space表示空格）

原创 2024-12-11 20:18:23 · 427 阅读 · 0 评论
easyocr配置及相关训练

参考下方链接，及其重要EasyOCR 识别模型训练（重要必看）只下载用于训练的即可这里用自己的图像集训练，可以只下载deep-text-recognition-benchmark即可，用此来进行训练。

原创 2024-12-10 20:42:07 · 327 阅读 · 0 评论

OCR识别

作者: 吾名招财

多onnx模型导出合并调研（文本检测+方向分类+文本识别）

使用openvino加速部署paddleocr文本识别模型（C++版）

python+panddleocr+文本识别训练导出测试

使用openvino加速部署paddleocr文本方向分类模型（C++版）

python+panddleocr+文本方向分类训练导出测试

使用openvino加速部署paddleocr文本检测模型（C++版）

paddleocr训练模型转inference模型之后预测结果不一致及部分训练失败问题

python+panddleocr+文本检测自定义数据集训练及测试

panddleocr-文本检测+文本方向分类+文本识别整体流程

MMOCR环境配置及训练测试（详细）

cnocr配置及训练测试

easyocr配置及相关训练