
ObjectDetection
文章平均质量分 95
图波列夫
这个作者很懒,什么都没留下…
展开
-
torchvision 中的 deform_conv2d
如 DCNv1 和 DCNv2 论文所述,DeformConv 相比常规卷积的参数量和计算量增加不多,但对网络的提升很大。然而,DeformConv 的计算模式并不利于高效实现,给网络带来的开销比纸面数值大:常规卷积可以采用 Implicit GEMM 的形式,非常高效;DeformConv 需要离散访存和插值,增加了 IO 量和内存占用。在 Torchvision 以及其他框架中,DeformConv2d 采用 Explicit GEMM 的方式实现。具体步骤为:deformable_im原创 2023-07-07 17:53:40 · 3828 阅读 · 3 评论 -
DCN v2阅读笔记
是研究的续作,发表在 CVPR 2019上。作者对的自适应行为进行研究,观察到虽然其神经特征的空间支持比常规的卷积神经网络更符合物体结构,但这种支持可能远远超出感兴趣区域,导致特征受到不相关图像内容的影响。为此,作者提出了改进版的,通过增加建模能力和更强的训练来提高其聚焦于相关图像区域的能力。原创 2023-07-05 12:51:51 · 1156 阅读 · 0 评论 -
DCN v1阅读笔记
视觉识别(例如对象检测和语义分割)中的一个关键挑战是如何适应物体尺度、姿态、视角和零件变形中的几何变化或模型几何变换。以往通过扩充现有数据样本,构建具有足够所需变化的训练数据集来缓解。这两种方法的指导思想为在模块中增加额外偏移量的空间采样位置,并从目标任务中学习偏移量,而无需额外监督。新模块可以很容易地替换现有 CNN 中的普通模块,并且可以通过标准反向传播很容易地进行端到端训练,从而产生。原创 2023-06-26 20:14:14 · 628 阅读 · 0 评论 -
Fast R-CNN与ROI Pooling
不同于图像分类,在物体检测任务中一幅图片上出现的目标数量和大小是任意的;与之相矛盾的是全连接层只能接受固定大小的输入。R-CNN首先提取建议区域(约2000),裁剪缩放到固定大小;然后将所有候选区域送入卷积网络进行分类和回归。显然,以上做法是非常耗时且低效的。候选区域之间存在大量重叠,这意味着提取的卷积特征包含大量冗余。借助于RoI pooling,Fast R-CNN可以复用卷积特征。考虑到...原创 2018-06-12 19:41:07 · 6827 阅读 · 0 评论 -
Faster R-CNN 与 RPN
Fast R-CNN 实现了候选框的特征图共享,大幅提高了训练及部署的效率。然而,网络输入仍然依赖 Selective Search 等方法,在整个系统中耗时占比较高且优化空间有限。Faster R-CNN 使用 RPN 网络生成候选区域。RPN 与第2阶段的 Fast R-CNN 共享特征图,使得效率再次跃升。Faster R-CNN 的整体框架如下图所示。RPN 告诉检测器需要看哪...原创 2018-08-01 14:00:37 · 5147 阅读 · 0 评论 -
R-FCN 与 Position Sensitive ROI Pooling
Faster R-CNN 通过与 RPN 共享特征图提高了整个检测过程的速度。然而,其第2阶段仍保留 Fast R-CNN 的处理手法,将数百区域逐一送入子网络。R-FCN 在 RoI 间亦共享特征,减少了区域处理的计算量。图片来源:vgg_rg_16_feb_2017_rfcn.pdfFaster R-CNN 与 R-FCN 的网络结构对比如下图所示:图片来源:Light-Head...原创 2018-10-23 20:02:00 · 3426 阅读 · 0 评论 -
OpenCV 中的 HOGDescriptor
HOG 特征是深度学习兴起之前非常重要的一种特征。在早期,OpenCV 中的跟踪算法并不支持 HOG 特征,而检测模块中 HOGDescriptor 是一维的。后来,TrackerCSRT 的加入带来了 HOG 特征。然而,Object Detection 和 Deformable Part-based Models 共存令人十分困惑。二者的区别是什么?两个模块均包含 HOG 特征且 Tracke...原创 2019-05-27 10:06:13 · 2470 阅读 · 0 评论 -
RetinaNet Examples:NVIDIA 一站式训练、推理及模型转换解决方案
retinanet-examples 是英伟达提供的目标检测工程范例,针对端到端 GPU 处理进行了优化:使用基于 Python 多进程的 apex.parallel.DistributedDataParallel 加速分布式训练;apex.amp 优化混合精度训练;NVIDIA DALI 加速数据预处理;推理使用 TensorRT。项目推荐安装 PyTorch NGC docker...原创 2019-08-08 19:24:25 · 2447 阅读 · 11 评论 -
BlazeFace:一种非典型专用检测器
MediaPipe 是谷歌在 CVPR2019会议上开源的一个感知和增强现实的框架。该框架基于图,可在移动设备、工作站和服务器上跨平台运行,并支持移动 GPU 加速。BlazeFace 为其中一个重要的组件,因为检测是绝大多数计算机视觉应用的入口。过往检测算法总是从提升性能出发,即便关注轻量级检测器的文章仍不免要在通用数据集上刷一下榜。而谷歌这篇紧贴实际需求,考虑场景限制条件,打造出一款小而专...原创 2019-08-25 19:54:49 · 6029 阅读 · 5 评论