FisheyeDetNet：首个基于鱼眼相机的目标检测算法

转载已于 2024-04-27 20:45:17 修改 · 1.4k 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247601908&idx=4&sn=4eef568e92e45d91857b8fe186114ad6&chksm=cf2a1c5500573815b92167b4ef4c0171ab0a5733334628ef1c28160fcc945a20bd10ff65c7d3&scene=126&sessionid=0

文章标签：

#数码相机 #目标检测 #算法 #人工智能 #计算机视觉

于 2024-04-26 07:31:03 首次发布

该文章已生成可运行项目，

添加小助理微信AIDriver004，加入近30+自动驾驶技术方向交流群！更多行业咨询与技术分享，欢迎加入『自动驾驶之心知识星球』，国内最大的技术交流社区，你想要的这里都有。

目标检测在自动驾驶系统当中是一个比较成熟的问题，其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而，利用鱼眼相机进行环视的近距离的感知相对来说研究较少。由于径向畸变较大，标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述提到的相关问题，我们探索了扩展边界框的标准对象检测输出表示。我们将旋转的边界框、椭圆、通用多边形设计为极坐标弧/角度表示，并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形的模型FisheyeDetNet优于其他模型，同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP指标。目前，这是第一个关于自动驾驶场景中基于鱼眼相机的目标检测算法研究。

文章链接：https://arxiv.org/pdf/2404.13443.pdf

网络结构

我们的网络结构建立在YOLOv3网络模型的基础上，并且对边界框，旋转边界框、椭圆以及多边形等进行多种表示。为了使网络能够移植到低功率汽车硬件上，我们使用ResNet18作为编码器。与标准Darknet53编码器相比，参数减少了近60%。提出了网络架构如下图所示。

边界框检测

我们的边界框模型与 YOLOv3 相同，只是 Darknet53 编码器被替换为 ResNet18 编码器。与YOLOv3类似，目标检测是在多个尺度上执行的。对于每个尺度中的每个网格，预测对象宽度()、高度()、对象中心坐标(，)和对象类。最后，使用非最大抑制来过滤冗余检测。

旋转边界框检测

在该模型中，与常规框信息(，，，)一起回归框的方向。方向地面实况范围 (-180 到 +180°) 在 -1 到 +1 之间进行归一化。

椭圆检测

椭圆回归与定向框回归相同。唯一的区别是输出表示。因此损失函数也与定向框损失相同。

多边形检测

我们提出的基于多边形的实例分割方法与PolarMask和PolyYOLO方法非常相似。而不是使用稀疏多边形点和像PolyYOLO这样的单尺度预测。我们使用密集多边形注释和多尺度预测。

实验对比

我们在Valeo鱼眼数据集上评估，该数据集有 60K 图像，这些图像是从欧洲、北美和亚洲的 4 个环绕视图相机捕获的。

所有模型都使用 IoU 阈值为 50% 的平均精度度量 (mAP) 进行比较。结果如下表所示。每个算法都基于两个标准进行评估—相同表示和实例分割的性能。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频