拜占庭古迹铭文检测的四元数生成对抗网络
在图像识别领域,文本检测是一个重要的研究方向。传统的文本检测方法在处理复杂场景下的文本时存在一定的局限性,而深度学习方法为解决这一问题提供了新的思路。本文将介绍一种基于四元数生成对抗网络(Quaternion GANs)的铭文检测方法,该方法在减少资源需求的同时,能取得与非四元数模型相当的性能。
1. 相关工作
自动文本检测主要分为两类:
- 扫描文档图像中的文本识别 :印刷文档中的文本检测通常采用OCR技术,而手写文档图像中的问题则被表述为无分割场景下的关键词搜索。
- 自然图像中的文本检测(野外文本检测) :这类场景包含各种颜色、字体、方向和语言的文本,还可能受到几何畸变、光照和环境条件的影响。深度学习方法在这种不利情况下表现出了强大的文本检测能力,近期基于目标检测框架的野外文本检测方法可分为基于边界框回归、基于分割和混合方法:
- 基于边界框回归的方法 :将文本视为一个对象,直接预测候选边界框。
- 基于分割的方法 :将文本检测作为语义分割任务,在像素级别对文本区域进行分类,然后在后期处理中获取包含文本的边界框。
- 混合方法 :依靠分割步骤预测文本的得分图,再通过回归得到文本边界框。
传统的实值卷积神经网络(CNN)在处理图像时,会独立编码每个像素的R、G、B通道输入特征的局部关系以及像素组构成的结构关系。而本文提出的四元数条件对抗网络将文本检测视为语义分割任务,利用四元数对输入的RGB通道进行整
超级会员免费看
订阅专栏 解锁全文
1805

被折叠的 条评论
为什么被折叠?



