TIP2018《TextBoxes++: A Single-Shot Oriented Scene Text Detector》论文阅读笔记

这篇博客介绍了TextBoxes++论文,它在SSD基础上改进了文本检测方法,提出了四边形和旋转矩形的边界框表达方式,并对SSD的默认框、损失函数等进行了调整。作者还探讨了训练和测试细节,包括负样本挖掘、数据增强和后处理步骤。此外,文章提到了结合CRNN的端到端检测识别模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

这篇论文是华科白翔老师组的工作,AAAI上也有一个版本,但是一般期刊的实验做得多一些,描述也更细致,所以本文以其在TIP上的版本为准。
这篇论文主要工作是在2017年完成的,TIP的审稿一两年才出结果挺正常的…所以对于这篇论文的核心思想,可以概括的更简练一些(毕竟现在SSD也不是什么时髦模型了)
关键词:SSDbounding boxScene Text Detection
论文链接:https://arxiv.org/pdf/1801.02765v3.pdf
源码链接:https://github.com/MhLiao/TextBoxes_plusplus

注:编者水平有限,如有谬误,欢迎指正。若要转载,请注明出处,谢谢。
联系方式:
邮箱:yue_zhan@yahoo.com
QQ:1156356625


概述

文章核心点:

  • 设计两种bbox的表达方式,分别是四边形和旋转矩形。
  • 对SSD做了一些修改,如换卷积的kernel、default box的长宽比、hard negative sample正负样本比例等。
  • word-level检测,配合OCR食用更佳。

框架

在这里插入图片描述
和SSD基本一致吧,总结一下对SSD做的改进部分。

  • default boxes的长宽比改为1, 2, 3, 5, 1/2, 1/3, 1/5,相较原始SSD多了5和1/5.
  • 给default boxes添加vertical offsets,这一个操作没搞懂,文中没有找到具体怎么设置这个offset的地方。手工设置?感觉没讲清楚,也可能是cover之前某些论文的操作。文中关于offset的解释也不大好,我理解的是针对大尺度目标,细粒度的feature map上的default box框不够大,粗粒度的可能目标中心在grid边缘上,这样覆盖的都不好,所以主要是对粗粒度的grid加上这个offsets,但是具体的话感觉没啥用(框够大,至少是能覆盖全的)。
  • 适当使用3×5的kernel代替3×3的,针对字符倒是好理解,针对word的话其实也不见得有多大用,结果说话hhh
  • bbox的表达方式,带回归的矩形框 ( Δ x , Δ y , Δ w , Δ h , Δ x 1 , Δ y 1 , Δ x 2 , Δ y 2 , Δ x 3 , Δ y 3 , Δ x 4 , Δ y 4 , c ) (\Delta x,\Delta y,\Delta w,\Delta h,\Delta x_1,\Delta y_1,\Delta x_2,\Delta y_2,\Delta x_3,\Delta y_3,\Delta x_4,\Delta y_4,c) (Δx,Δy,Δw,Δh,Δx1,Δy1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值