
基于深度学习的文本检测与识别技术白皮书
文章平均质量分 87
合合技术团队
上海合合信息科技股份有限公司
展开
-
文字检测识别技术的未来发展趋势和面临的选择
一个可行的解决方案可能是探索能够捕获不同语言的文本实例的常见模式的组合表示,并使用文本合成引擎生成的不同语言的文本示例来训练检测和识别模型。原创 2022-12-16 07:30:00 · 1277 阅读 · 0 评论 -
CRAFTS:端对端的场景文本检测器
场景文本检测器由文本检测和识别模块组成。许多研究已经将这些模块统一为一个端到端可训练的模型,以获得更好的性能。一个典型的体系结构将检测和识别模块放置到单独的分支中,通常使用RoIpooling来让这些分支共享一个视觉特征。然而,当采用使用基于注意力的解码器和表示字符区域空间信息的检测器时,仍然有机会在模块之间建立更互补的连接。这是可能的,因为这两个模块共享一个共同的子任务,即查找字符区域的位置。原创 2022-11-15 10:36:54 · 702 阅读 · 0 评论 -
ABCNet:端到端的可训练框架的原理应用及优势对比
ABCNet(Adaptive Bezier Curve Network)是一个端到端的可训练框架,用于识别任意形状的场景文本。直观的pipeline如图所示。采用了单点无锚卷积神经网络作为检测框架。移除锚定箱可以简化我们任务的检测。原创 2022-11-07 16:30:17 · 1032 阅读 · 0 评论 -
FOTS:端到端的文本检测与识别方法的原理应用与优势
基于深度学习的可端到端训练的自然场景检测与识别算法(text spotting)由于其简洁高效且统一的结构,逐渐取代了过去将检测与识别分阶段训练然后拼接在一起的方案,成为自然场景文本检测与识别的主流研究方向之一。端到端自然场景文本检测和识别网络一般都共享特征提取分支,根据提取的特征进行文本检测,然后将检测得到的文本特征送入识别模块进行文本识别。原创 2022-11-04 15:07:23 · 2809 阅读 · 0 评论 -
【文本检测与识别白皮书-3.2】第二节:基于注意力机制和CTC的场景文本识别方法的对比
本节内容给出基于CTC和基于注意力机制的两种场景文本识别方法,并给出各自的优势与局限性原创 2022-11-03 16:04:42 · 1257 阅读 · 2 评论 -
【文本检测与识别白皮书-3.2】第一节:基于分割的场景文本识别方法
基于分割的识别算法是自然场景文本识别算法的一个重要分支(Wang 等,2012;Bissacco 等,2013;Jaderberg 等,2014),通常包括3 个步骤:图像预处理、单字符分割和单字符识别。基于分割的自然场景文本识别算法通常需要定位出输入文本图像中包含的每个字符的所在位置,通过单字符识别器识别出每一个字符,然后将所有的字符组合成字符串序列,得到最终的识别结果。原创 2022-10-31 14:12:41 · 1006 阅读 · 0 评论 -
【文本检测与识别-白皮书-3.1】第四节:算法模型 2
SegLink提出一种新的文本检测策略,由一个简单和高效的CNN模型实现。在水平方向、面向方向和多语言的文本数据集上的优越性能很好地证明了SegLink是准确、快速和灵活的。在未来,将进一步探索其在检测弯曲文本等变形文本方面的潜力。此外,研究人员还想将SegLink扩展到一个端到端识别系统。原创 2022-10-24 16:59:21 · 1313 阅读 · 1 评论 -
【文本检测与识别白皮书-3.1】第三节:算法模型
R-CNN、Fast R-CNN、Faster R-CNN2014年论文《Rich feature hierarchies for accurate object detection and semantic segmentation Tech report》提出R-CNN模型,即Regions with CNN features。这篇论文可以算是将CNN方法应用到目标检测问题上的开山之作。。。原创 2022-10-21 11:27:28 · 778 阅读 · 0 评论 -
【文本检测与识别白皮书-3.1】第二节:基于分割的场景文本检测方法
基于分割的自然场景文本检测方法主要是借鉴传统的文本检测方法的思想,先通过卷积神经网络检测出基本的文本组件,然后通过一些后处理的方式将文本组件聚集成一个完整的文本实例。此类方法可以进一步划分为像素级别的方法(基于分割的方法)和文本片段级别的方法。原创 2022-10-19 16:28:55 · 1057 阅读 · 0 评论 -
【文本检测与识别白皮书-3.1】第一节:常用的文本检测与识别方法
考虑到将Faster R-CNN 用于文本检测时,矩形锚点框与文本的形状相差过大,会导致区域生成网络(region proposal network,RPN)在生成文本候选区域时效率不高,鲁棒性也不强,Zhong 等人(2019)因此借鉴了DenseBox(Huang 等,2015) 的思想,提出了不需要锚点框的区域生成网络(anchor-free region proposal network, AF-RPN)。基于深度学习的自然场景文本检测方法在检测精度和泛化性能上远优于传统方法,逐渐成为了主流。原创 2022-10-17 16:18:12 · 1126 阅读 · 0 评论 -
【技术白皮书】第二章:文本检测与识别技术发展历程
这些新的识别系统的出现,标志着印刷体汉字识别技术的应用领域得到了广阔的扩展。总共有11个单位进行了14次印刷体汉字识别的成果鉴定,这些系统对样张识别能达到高指标:可以识别宋体、仿宋体、黑体、楷体,识别的字数最多可达6763个,字号从3号到5号,识别率高达99.5%以上,识别速度在286微机条件下能够达到10~14字/秒,但对真实文本识别率大大下降,这是由于以上系统对印刷体文本形状变化(如文本模糊、笔划粘连、断笔、黑白不均、纸质质量差、油墨反透等等)的适应性和抗干扰性比较差造成的......原创 2022-09-27 10:14:51 · 612 阅读 · 0 评论 -
【技术白皮书】第一章:基于深度学习的文本检测与识别的技术背景
OCR全称Optical Character Recognition,即光学字符识别,最早在1929年被德国科学家Tausheck提出,定义为将印刷体的字符从纸质文档中识别出来。现在的OCR,狭义上指对输入扫描文档图像进行分析处理,识别出图像中文本信息。而随着OCR技术的日益发展,人们已不再仅仅满足于文档或书本上的文本,开始将目标转移到现实世界场景中的文本,这被称为场景文本识别(Scene Text Recognition,STR)。原创 2022-09-05 15:56:22 · 1627 阅读 · 0 评论