前言
这篇论文是华科白翔老师组的工作,AAAI上也有一个版本,但是一般期刊的实验做得多一些,描述也更细致,所以本文以其在TIP上的版本为准。
这篇论文主要工作是在2017年完成的,TIP的审稿一两年才出结果挺正常的…所以对于这篇论文的核心思想,可以概括的更简练一些(毕竟现在SSD也不是什么时髦模型了)
关键词:SSD
、bounding box
、Scene Text Detection
论文链接:https://arxiv.org/pdf/1801.02765v3.pdf
源码链接:https://github.com/MhLiao/TextBoxes_plusplus
注:编者水平有限,如有谬误,欢迎指正。若要转载,请注明出处,谢谢。
联系方式:
邮箱:yue_zhan@yahoo.com
QQ:1156356625
概述
文章核心点:
- 设计两种bbox的表达方式,分别是四边形和旋转矩形。
- 对SSD做了一些修改,如换卷积的kernel、default box的长宽比、hard negative sample正负样本比例等。
- word-level检测,配合OCR食用更佳。
框架
和SSD基本一致吧,总结一下对SSD做的改进部分。
- default boxes的长宽比改为1, 2, 3, 5, 1/2, 1/3, 1/5,相较原始SSD多了5和1/5.
- 给default boxes添加vertical offsets,这一个操作没搞懂,文中没有找到具体怎么设置这个offset的地方。手工设置?感觉没讲清楚,也可能是cover之前某些论文的操作。文中关于offset的解释也不大好,我理解的是针对大尺度目标,细粒度的feature map上的default box框不够大,粗粒度的可能目标中心在grid边缘上,这样覆盖的都不好,所以主要是对粗粒度的grid加上这个offsets,但是具体的话感觉没啥用(框够大,至少是能覆盖全的)。
- 适当使用3×5的kernel代替3×3的,针对字符倒是好理解,针对word的话其实也不见得有多大用,结果说话hhh
- bbox的表达方式,带回归的矩形框 ( Δ x , Δ y , Δ w , Δ h , Δ x 1 , Δ y 1 , Δ x 2 , Δ y 2 , Δ x 3 , Δ y 3 , Δ x 4 , Δ y 4 , c ) (\Delta x,\Delta y,\Delta w,\Delta h,\Delta x_1,\Delta y_1,\Delta x_2,\Delta y_2,\Delta x_3,\Delta y_3,\Delta x_4,\Delta y_4,c) (Δx,Δy,Δw,Δh,Δx1,Δy1