精准识别文字信息:通用文本识别算法整理

本文探讨了通用文本识别(OCR)领域的最新算法,包括仅使用真实数据训练STR模型、隐式特征对齐(IFA)提升文本识别器性能以及序列到序列对比学习(SeqCLR)框架。这些研究在提高识别准确性的同时,降低了对合成数据的依赖,为无检测文本点选和多行文本处理提供了新思路。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

通用文字识别(OCR)目前有很多火热的应用,比如身份证识别可以自动地从图片中定位和识别出身份信息。通用高精版识别,可以单字识别并返回单字坐标,表格识别可以识别文档上所有表格里面的信息内容。增值税发票识别,可以识别发票代码、号码、日期、校验码、税额、受票方名称等15个常见字段,带给人们更多的便利。详细的识别算法知识见:https://www.quickconn.net.cn/#/insight/showPaper.html?paperId=60,精准识别文字信息。

图1 通用文字识别

下面介绍几种较新、效果较好的通用文字识别算法。

What If We Only Use Real Datasets forScene Text Recognition? Toward Scene Text Recognition With Fewer Labels

场景文本识别(STR)任务有一个共同的做法:所有最先进的STR模型都在大量的合成数据上进行训练。与此相反,当必须在没有合成数据的情况下训练STR模型时,只在较少的真实标签上训练STR模型(STR with fewer labels)是很重要的:对于难以合成的手写或艺术文本,以及对于英语以外的语言,不一定有合成数据

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值