基于新方法的视频文本检测与激活帧选择
1. 研究背景与挑战
在自然场景图像的文本检测、识别和定位方面已经取得了显著进展,但这仍然是研究的热点。这是因为许多现实世界和实时应用都需要文本检测和识别技术,例如自动驾驶车辆、语言翻译、视觉问答、监控和监测应用等。
然而,目前大多数工作主要集中在自然场景图像和视频的文本检测上,对于一些特殊场景的实时应用还未充分涉及。比如,在日夜、抖动和非抖动的视频中进行文本检测就是一个具有挑战性的问题。这些视频由于日夜光线变化、物体(如树叶、树木、车辆和人类)的移动以及相机抖动等因素,导致视频质量严重下降,使得传统的文本检测方法难以有效工作。
现有方法虽然在处理自然场景图像的一些挑战(如任意形状文本、低对比度、弯曲文本和复杂背景)方面取得了一定成果,但它们的适用范围通常局限于无抖动相机拍摄的白天视频或图像。因此,在日夜、抖动和非抖动相机拍摄的视频中进行文本检测仍然是一个未解决的难题。
2. 相关工作
文本检测方法大致可分为自然场景图像文本检测方法、视频文本检测方法和低光图像文本检测方法三类。
2.1 自然场景图像文本检测方法
- Wu 等人 :提出了一种上下文感知的可变形变压器用于场景图像中的文本检测,旨在准确处理任意方向和形状的文本问题,该模型提取多尺度特征感知和融合操作。
- Cheng 等人 :专注于解决设置恒定阈值和图像退化的挑战,提出了一种自适应阈值通过二值化分析图像质量。
- Zhang 等人 :
超级会员免费看
订阅专栏 解锁全文
1527

被折叠的 条评论
为什么被折叠?



