1、Deep residual learning for image recognition
何凯明的代表作之一,获得了16年的bestpaper。文章不是针对目标检测来做的,但其解决了一个最根本的问题:更有力的特征。检测时基于Faster R-CNN的目标检测框架,使用ResNet替换VGG16网络可以取得更好的检测结果。(实际上,使用ResNet网络代替ZF, VGG, GoogleNet等网络模型无论在图像分类、目标检测还是图像分割等任务上都可以大大提高识别的准确率)
2、You only look once: Unified, real-time object detection
这是16年的oral。这个工作在识别效率方面的优势很明显,可以做到每秒钟45帧图像,处理视频是完全没有问题的。YOLO最大贡献是提出了一种全新的检测框架——直接利用CNN的全局特征预测每个位置可能的目标,相比于R-CNN系列的region proposal+CNN 这种两阶段的处理办法可以大大提高检测速度。今年新出来的SSD方法虽然在识别率上边有了很大的提升,但YOLO的先驱作用是显而易见的。
3、LocNet: Improving Localization Accuracy for Object Detection
IoU参数在Pascal VOC中