
OCR
文章平均质量分 75
CV-deeplearning
曾任小米AI Lab图像算法工程师, 现任国内知名公司算法专家, 微信公众号:AIWorkshopLab。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MonkeyOCR从理论到实践——保姆级教程
MonkeyOCR:本文提出“结构-识别-关系”(SRR)三元组范式,实现了高效且精准的文档解析。其3B参数模型在英文文档解析任务中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B。在对多页文档解析场景下,处理速度达每秒0.84页,显著优于MinerU(0.65页/秒)和Qwen2.5-VL-7B(0.12页/秒)。原创 2025-06-12 14:25:25 · 1020 阅读 · 0 评论 -
DocLayout-YOLO使用指南
DocLayout-YOLO是一个基于YOLOv10的文档布局分析工具,可自动检测文档中的标题、正文、表格、公式等元素。通过pip安装后,用户可调用封装好的Python类进行预测,返回检测框坐标、类别和置信度。该工具支持GPU加速,在测试中展现了良好的检测效果,能准确识别文档中的各类结构元素。项目提供在线体验、论文和开源代码,方便研究人员和开发者使用。原创 2025-06-11 11:21:22 · 266 阅读 · 0 评论 -
Dolphin文档解析从理论到实践——保姆级教程
2025年5月,字节开源了文档解析Dolphin,让文档解析效率提升83%。本文将深入解析字节跳动最新开源的Dolphin模型,先看理论在实战体验。现实世界中约80%的有价值信息都被"囚禁"在非结构化文档中——PDF学术论文、企业报告、技术文档、医疗记录。这些"沉睡的数据资产"如同被锁在保险柜中的黄金,等待着被解放的钥匙。原创 2025-05-28 19:21:42 · 960 阅读 · 0 评论 -
文档矫正算法:DocTr++
论文提出了一种新的数据处理方式,解决了以前文档矫正只能处理带有边界信息的完整文档,文章通过数据处理定义了三种类型的训练数据。(a)包含完整文档边界,(b)包含部分文档边界,(c)不包含文档边界。算法框架如下:对于任意弯曲的文档,作者首先通过CNN抽取特征,然后通过transformer结构进行编码和解码,最后用Flow Head预测偏移场,用偏移场矫正弯曲图片。原创 2024-09-23 17:43:01 · 1199 阅读 · 0 评论 -
车牌识别——合成车牌数据
做车牌识别时,如果你缺乏数据,要想提高模型的鲁棒性,合成数据是一个常用的方法,本文带你合成车牌识别数据。原创 2020-12-14 15:37:38 · 3506 阅读 · 4 评论 -
用传统算法将较长的OCR图片分割
传统算法对长条字符串进行分割原创 2020-12-04 10:14:27 · 914 阅读 · 2 评论 -
python 字符串相似度判断详解
如何用python求两个字符串的相似度呢?由于项目中要用到,所以本文将实现两个字符串相似度的求解过程。原创 2020-11-27 14:05:45 · 5866 阅读 · 0 评论 -
PaddleOCR 用conda配置环境
3分钟教会你用conda配置PaddleOCR的训练测试环境。原创 2020-11-25 14:41:13 · 3375 阅读 · 2 评论