新型文本与违禁物品检测方法研究
在当今的图像和视频处理领域,文本检测以及违禁物品检测是两个重要的研究方向。下面将详细介绍相关的研究方法、实验结果以及未来展望。
基于Transformer的文本检测方法
- 激活帧选择
- 通过计算结构相似性指数(SSIM)来判断目标帧与参考帧是否相似。当SSIM(参考帧,目标帧) < 阈值时,目标帧被设为激活帧,否则保持不变。
- 例如,检测到的激活帧有Frame – 12 (0.93)、Frame – 14 (0.94)等,括号内的值表示关键帧与激活帧的相似度值。
- 文本检测步骤
- Transformer骨干网络 :从初始参考帧(具有三个颜色通道)开始,使用CNN骨干网络生成低分辨率的激活图。
- Transformer编码器 :第一层使用1×1卷积将高级激活图的通道维度降低,创建新的特征图。编码器架构具有排列不变性,通过将空间维度压缩为一维得到输入序列,并添加位置编码。编码器层由多头注意力模块和前馈网络组成。
- Transformer解码器 :遵循通用Transformer解码器的标准架构,使用多头自注意力和编码器 - 解码器注意力机制并行解码N个对象。输入嵌入有额外的位置编码(对象查询),这些对象查询被解码器转换为输出嵌入,再通过前馈网络解码为边界框和类别。 <
超级会员免费看
订阅专栏 解锁全文
990

被折叠的 条评论
为什么被折叠?



