目标检测论文
3D
lidar
- 精确的non-Texture
3d估计 + 检测
-
Pseudo-LiDAR_From_Visual_Depth_Estimation_Bridging_the_Gap_in_3D
- https://openaccess.thecvf.com/content_CVPR_2019/html/Wang_Pseudo-LiDAR_From_Visual_Depth_Estimation_Bridging_the_Gap_in_3D_CVPR_2019_paper.html
- 将基于图像的深度图转换为伪 LiDAR 表示——本质上是模仿 LiDAR 信号
- KITTI 3D 对象检测排行榜
-
Scene Target 3D Point Cloud Reconstruction Technology Combining Monocular Focus Stack and Deep Learning
- focus stack image and deep neural network
- light field imaging technology
- different focal lengths of the scene
自动驾驶的障碍物检测
Concealment and Obstacle Detection for Autonomous Driving 1999
自动驾驶的隐藏和障碍物检测
-
正面(例如岩石)和负面(例如沟渠)障碍物和隐藏区域
-
正面障碍物的例子有岩石、树木、栅栏等
-
面障碍物是指地面上的凹陷,即沟渠
-
悬垂障碍物是指直接位于地面上方的物体
- 树枝是户外环境中的典型例子。
-
-
常见的方法是将平面拟合到局部网格表示中的点 [6,8,19] 的补丁
- 平面拟合到一块点的方法来检测障碍物。他们的算法计算量大,难以检测小障碍物[18]。
-
差分深度和斜率来改进、快速的障碍物检测
-
正面障碍物是表面坡度陡峭的障碍物。这个条件在数学上用以下方式表示
-
与正面障碍物不同,负面障碍物通常不会因为遮挡而具有陡峭的向下坡度
- 传感器安装得更高并增加倾斜角。这将允许斜率成为检测因素,但也会减少感应区域
-
为了减少误报的数量,直到沟渠位于 Ladar 图像的高分辨率部分内时才考虑沟渠
- 我们的传感器安装,该区域距离车辆 20 m 以内。该范围可能不足以在高速下行驶
-
沟渠的远处墙壁是积极的障碍物,可以在更远的地方检测到
-
有悬空的概念出现:比如树木等,凸出来的一块,但是如果很高就可以过
-
积极的障碍可能是无害的。例如,短草和鹅卵石由于尺寸小而应被忽略
-
障碍物检测系统的目标是检测前方足够远的障碍物,以便为制动或避让操作提供时间
-
车辆快速移动,扫描激光束可能会完全错过障碍物
-
目标障碍物隐藏在高草丛中时难以识别。
- 高草、灌木和背景树木标记为障碍物
自动驾驶障碍物检测进展报告
Obstacle Detection for Unmanned Ground Vehicles:
A Progress Report 1995
- 自然和人为障碍物
- 热图像上尝试立体视觉来解决夜间操作问题
- 可见光、近红外和偏振图像区分土壤、植被和水进行了初步调查
Learning to Detect Every Thing in an Open World
学习检测开放世界中的每一件事
-
略读
-
数据集
-
论文
-
两种设置上评估 LDET:跨类别和跨数据集
- 已知类上训练模型,并在未知类上评估检测/分割性能
-
-
代码
-
网络
-
特点
-
为了避免抑制隐藏对象(可见但未标记的背景对象),我们将带注释的对象粘贴到从原始图像的小区域采样的背景图像上。
-
由于仅在此类合成增强图像上进行训练会受到域转移的影响,因此我们将训练分为两部分:1)在增强图像上训练区域分类和回归头,2)在原始图像上训练掩模头。
- 模型不会学习将隐藏对象分类为背景,同时很好地推广到真实图像
- 在 COCO 的跨类别泛化以及 UVO 和 Cityscapes 的跨数据集评估方面优于基线
-
-
[ joseph2021towards ]提出了一种用于开放世界检测的半监督学习方法,该方法将远离ground truth box但具有高objectness score的区域视为隐藏的前景对象
-
-
创新点
-
当前最先进模型的失败部分是由于训练,即将与带注释的前景对象几乎没有注释的所有区域作为背景,而其中可能有物体,这就导致学习效果不佳
- 掩码注释复制前景对象并将它们粘贴到背景图像上
- 使裁剪后的补丁保持较小,我们使生成的合成图像不太可能包含任何隐藏对象
-
数据增强和解耦训练对于在开放世界实例分割中实现良好性能至关重要
-
增强策略通过放大小区域以用作背景来创建没有隐藏对象的图像
- 以创建一个不太可能有任何对象的背景。该管道旨在规避将隐藏对象抑制为背景
-
-
避免模型通过频率信息的差异来学习分离背景和前景,前景对象被下采样并调整为原始大小
-
box head 和 proposal 网络仅使用没有背景对象的混合图像进行训练,因此它们擅长检测新对象
- 虽然定位质量估计 [ kim2021learning ]需要在训练期间仔细选择阈值,但 LDET 不需要。
-
-
合成图像和真实图像,通过计算真实图像上的实例掩码损失,同时使用合成图像仅计算提议分类损失和定位回归损失。掩模损失鼓励模型在给定边界框的情况下分离背景和前景像素,其中仅选择定位良好的边界框来计算损失。
-
-
-
总结
-
强大数据增强和训练方案
- 称之为学习检测一切事物 (LDET)
-
跨域学习
- 开放世界实例分割
-
小物体
Feature-fused SSD: fast detection for small objects
- https://www.spiedigitallibrary.org/conference-proceedings-of-spie/10615/106151E/Feature-fused-SSD-fast-detection-for-small-objects/10.1117/12.2304811.short?SSO=1
DROAN - Disparity-space Representation for Obstacle A voidaNce:
障碍 A voidaNce 的视差空间表示
Enabling Wire Mapping & A voidance
电线建图和规避
-
略读
-
语义分割范式下使用卷积神经网络进行单目线检测,并获得线像素的置信度图
-
双目立体对来检测其他通用障碍物
-
视差空间表示来表示电线和通用障碍物
-
多个视差图像上维护一个位姿图来执行碰撞检查的占用推断
-
路径跟踪控制器遵循此轨迹
-
背景杂乱无章、看起来相似的边缘、对比度低或几乎看不到厚度的情况下,它们可能特别难以察觉。
-
平行于立体基线,那么使用水平双目立体对也无济于事
- 最先进的无人机避障技术,可以说是 Skydio [1],承认他们的技术无法检测电线和电源线
-
细障碍物,例如电线和电源线
- thin obstacles such as wires and power lines
-
相关工作 A. 单目检测线检测最早的工作之一来自 Kasturi 等人 [11],他们使用 Steger 算法 [12] 提取边缘图,然后进行阈值 Hough 变换。坎达莫等人[13]使用 Canny 检测器找到边缘,然后根据使用光流发现的估计运动按比例对它们进行加权,然后进行形态滤波和加窗霍夫变换。 Song 和 Li [14] 提出了一种顺序的局部到全局电力线检测算法,可以检测直线和曲线。全卷积网络[8]为语义分割任务提出了学习上采样和跳过层。
- 然而,对于细线,FCN 和类似的方法(如 SegNet [15])在直观上不是最理想的,因为关键信息在池化层中丢失,难以在上采样层中定位。 Dilated 或 atrous 内核提供了一个框架来捕获随着网络深度的增加而呈指数增长的视野,如 [9] 中所解释的那样,通过增加膨胀参数来增加网络深度。我们使用 [7] 的方法使用扩张的卷积网络,这些卷积网络在合成数据上进行了预训练,并在少量真实数据上进行了微调,以便在实践中在测试站点上获得不错的结果。
-
合成线的大型数据集不可用,我们使用光线追踪引擎 [21]、[22] 生成大量合成线,并将它们叠加在公开可用的视频帧上,以制作 ImageNet 模拟用于预训练网络
-
视差空间中使用高斯的原因是,视差误差主要是由于沿核线匹配像素时的对应误差引起的
-
虚拟限制表面来捕获障碍物占据的体积,通过我们在上一节中开发的传感器模型生成两个相应的视差图像
-
-
对细线进行检测
-
合成线的大型数据集不可用,我们使用光线追踪引擎 [21]、[22] 生成大量合成线,并将它们叠加在公开可用的视频帧上,以制作 ImageNet 模拟用于预训练网络
- 没公开
-
-
利用视差2。5D,线会遮挡点云,
- 相比之下lidar做不到,太稀疏
目标检测&实例分割
RDSNet: A New Deep Architecture for Reciprocal Object Detection and Instance Segmentation
-
略读
-
数据集
-
论文
- https://www.leiphone.com/category/academic/TTcH12nhAzBWl8I5.html
-
代码
- https://github.com/wangsr126/RDSNet
-
网络
-
特点
-
创新点
-
综述网址
- https://www.zhihu.com/question/434960624#:~:text=%E5%9B%BE%E5%83%8F%E5%88%86%E5%89%B2%E5%92%8C%E6%A3%80%E6%B5%8B%E8%83%BD%E5%A4%9F%E7%BB%9F%E4%B8%80%E8%B5%B7%E6%9D%A5%E5%81%9A%E5%90%97%EF%BC%9F%20%E5%9B%BE%E5%83%8F%E5%88%86%E5%89%B2%E5%9F%BA%E6%9C%AC%E6%80%9D%E8%B7%AF%E6%98%AF%E7%BB%99%E6%AF%8F%E4%B8%80%E4%B8%AA%E5%83%8F%E7%B4%A0%E7%82%B9%E5%88%86%E9%85%8D%E7%B1%BB%E5%88%AB%E6%A0%87%E7%AD%BE%E3%80%82,%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B%E6%98%AF%E6%8A%8A%E7%9B%AE%E6%A0%87%E6%A1%86%E5%87%BA%E6%9D%A5%E5%B9%B6%E6%89%93%E4%B8%8A%E6%A0%87%E7%AD%BE%E3%80%82%20%E8%BF%99%E6%A0%B7%E7%9C%8B%E8%B5%B7%E6%9D%A5%EF%BC%8C%E5%88%86%E5%89%B2%E6%98%AF%E6%AF%94%E6%A3%80%E6%B5%8B%E6%9B%B4%E7%B2%BE%E7%BB%86%E7%9A%84%EF%BC%8C%E5%AE%8C%E6%88%90%E4%BA%86%E5%88%86%E5%89%B2%E8%87%AA%E7%84%B6%E5%B0%B1%E5%AE%8C%E6%88%90%E4%BA%86%E6%A3%80%E6%B5%8B%E3%80%82
多传感器融合目标检测
End-to-End Leanrnign of Multi-sensor 3D Tracking by Detection
-
跟踪和检测区别
-
略读
-
数据集
- KITTI
-
论文
- https://arxiv.org/abs/1806.11534v1
- 通过检测实现多传感器 3D 跟踪的端到端学习
-
代码
-
综述
-
基于过滤的方法
-
马尔科夫假设来估计轨迹的后验分布
- 贝叶斯或蒙特卡洛滤波方法,例如高斯过程[ 3 ]、粒子滤波器和卡尔曼滤波器[ 2 ]
-
一组检测中决定哪些应该被链接以形成正确的轨迹
-
马尔可夫链蒙特卡罗 (MCMC) [ 4 , 5 ]、线性规划[ 6 , 7 ]或流程图[ 8 ]来估计关联
-
-
-
网络
- 通过孪生网络利用外观和运动
-
特点、难点
- 挑战包括处理对象截断、高速目标、照明条件、传感器运动和目标之间的复杂交互,这会导致遮挡和路径交叉
-
创新点
- 相机和激光雷达数据来生成非常准确的 3D 轨迹
- 问题表述为一个可以精确解决的线性程序
-
完全契合的综述
-
Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review
-
精读
-
数据集
-
论文
- https://blog.youkuaiyun.com/qq_15698613/article/details/119091679?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_title~default-0.no_search_link&spm=1001.2101.3001.4242.1&utm_relevant_index=3
-
Mono Camera and LiDAR fusion
-
包含信号级、特征级、以及多层次融合
-
信号级(前融合)
-
点云深度图与图像结合,形成RGBD图像,然后将RGBD图像送入网络中
-
例子
- 如Sparse-to-dense(基于ResNet的自动编码网络,但是真值比较难获取)
- Self-supervised sparse-to-dense(Sparse-to-dense的改进,但只对静止物体有效,且输出的深度模糊)
- CSPN(卷积空间网络,可以直接提取与图像相关的affinity 矩阵)
- CSPN++(CSPN改进版,可以动态调整卷积核大小)
-
-
特征级
-
分别将稀疏深度图和点云送入网络中,完成特征的提取
-
eg
- 《Depth completion and semantic segmentation》(就是将图像和稀疏深度图先由NASNet进行编码处理,然后融合到共享解码器中,获得良好的深度效果)
- Plug-and-Play(利用Pnp从稀疏深度图中计算梯度并更新现有深度图信息)
- 《Confidence propagation through cnns for guided sparse depth regression》(并行处理图像与稀疏深度映射,并归一化卷积来处理高度稀疏的深度和置信度)
- 《Self-supervised model adaptation for multimodal semantic segmentation》(将前面提到的单节段扩展到网络不同深度的多阶段)
- GuideNet(将图像特征与不同层次的稀疏深度特征在编码其中进行融合,缺乏有效的gt)
-
-
多层次融合
- 前两个做了一个融合
- 《“Sparse and noisy lidar completion with rgb guidance and uncertainty》(对RGBD数据和深度数据同时进行处理,然后根据置信图进行融合
-
-
双目相机与LiDAR融合
-
就是利用stereo相机之间的视差获取图像的深度值,然后结合稀疏的点云深度信息产生更精确的密集深度
-
eg
- 《“High-precision depth estimation using uncalibrated lidar and stereo fusion》(两阶段CNN,第一阶段采用激光雷达与Stereo的视差获取融合视差,第二阶段将融合视差与左RGB图像融合在特征空间中,以预测最终的高精度视差,然后再进行三维重建)
- 《Noise-aware unsupervised deep lidar-stereo fusion》(不需要gt,直接适用图像、点云自身的损失进行端到端训练,好处就是不太关注于点云与图像之间的对齐信息)、类似的还有《Listereo: Generate dense depth maps from lidar and stereo imagery 》
-
-
-
资源
-
https://zhuanlan.zhihu.com/p/86543002
- 深度学习基于摄像头和激光雷达融合的3-D目标检测
道路故障检测(给出的方法)
【负障碍物方向】
We Learn Better Road Pothole Detection: from Attention Aggregation to Adversarial Domain Adaptation
-
略读
-
数据集
- sites.google.com/view/pothole-600
- 该数据集是使用ZED 立体相机收集的。使用PT-SRP [1]估计道路视差图像;视差变换算法首先在 [2] 中介绍,然后在 [3] 中介绍了高级版本。
- 开发了一个新的对抗域自适应框架,用于训练集扩充
-
代码
- https://sites.google.com/view/pothole-600/code
-
网络
-
U-Net
-
PSPNet
-
FuseNet [22] and depth-aware CNN [23]
-
AMs
- attention module
- 每个跳过连接中的串联之前为编码器特征映射添加AM
- 最高级别添加一个AM
-
对抗域自适应
-
pix2pix
-
注意力聚合框架
- Attention Aggregation Framework
-
Attention Aggregation Framework
-
-
特点
- 双目摄像头
- 成功地将其嵌入无人机中进行实时道路检查
- 视差(或逆深度)变换DT旨在将视差或逆深度图像G变换为准鸟瞰视图
- 为高级特征图增加一个调幅可以显著提高整体性能
-
创新点
- 新的注意聚合(AA)框架,该框架充分利用了不同类型注意模块的优点
- 开发了一种基于对抗域自适应的有效训练集扩充技术,其中生成合成道路RGB图像和变换道路视差(或反向深度)图像,以增强语义分割网络的训练
- 曲面建模方法检测道路凹坑
- 开发了一个新的对抗域自适应框架,用于训练集扩充
-
基于密集亚像素视差图估计的路面3D重建
-
略读
-
数据集
-
论文
- https://ieeexplore.ieee.org/abstract/document/8300645
-
代码
-
网络
-
特点
-
创新点
-
A deep learning approach to automatic road surface monitoring and pothole detection
-
略读
-
数据集
-
论文
-
代码
-
网络
- 多元时间序列
- LSTM
-
特点
-
用内置的智能手机加速度计来感知路面,从而采用众包感知视角
- 减速带和其他会在车辆中产生振动但不能视为道路缺陷的结构
- 有误报
- 深度学习的方法解决
-
-
创新点
-
-
加速度计传感器
Crack-pot: Autonomous Road Crack and Pothole Detection
-
纹理和空间特征检测裂缝和坑洞
- 方法在大视点变化、背景噪声、阴影和遮挡方面表现良好
-
略读
-
数据集
-
standard road crack datasets
- Kendall, Alex and Badrinarayanan, Vijay and and Cipolla, Roberto, Bayesian SegNet: Model Uncertainty in Deep Convolutional EncoderDecoder Architectures for Scene Understanding, arXiv preprint arXiv:1511.02680, 2015
- Eisenbach, Markus and Stricker, Ronny and Seichter, Daniel and Amende, Karl and Debes, Klaus and Sesselmann, Maximilian and Ebersbach, Dirk and Stoeckert, Ulrike and Gross, Horst-Michael,”How to Get Pavement Distress Detection Ready for Deep Learning? A Systematic Approach,” 2017 International Joint Conference on Neural Networks (IJCNN) pp. 2039–2047.
-
Zhang dataset
-
GAPs dataset
-
-
论文
-
关键词
- potholes
-
误报
-
道路补丁
- 缺乏关于深度的知识,即使使用人脑也很难确定
-
-
-
代码
-
网络
-
SqueezeNet
- 我们删除了 SqueezeNet 的最后一个卷积层,并合并了一个编码层
-
编码层的引入有助于学习纹理特征和空间特征。
-
二元Cross Entropy
-
-
特点
- 大视点变化、背景噪声、阴影和遮挡方面表现良好
- 在编码层中学习到的基于纹理的特征与空间信息相结合,形成了分类的基础。
- 即插即用模块,而无需改变其基本设计
-
创新点
-
候选坑洞和裂缝,我们从图像中创建了两个掩码
- 第二个掩码,对视频帧执行简单的基于微分的边缘检测算法(Canny 边缘检测)。
- 第一个掩码是通过将视频帧通过修改后的 SegNet
-
-
三类传感器
- 激光雷达
- IMU震动
- 纯视觉
Pothole detection using location‑aware convolutional neural networks
-
略读
-
数据集
-
公共坑洞数据集
-
Machine Intelligence Institute of Africa (2017) MIIA deep learn-
ing Hackathon. http://machi neint ellig encea frica .org/activ ities /
hacka thon/. Accessed 7 Jan 2019- 4026 张训练图像和 1650 张测试图像组成,分为两类:正面(包含坑洞的图像)和负面(没有坑洞的图像)。
-
-
-
论文
-
代码
-
网络
-
两个主要子网络
-
定位子网络采用高召回率网络模型来找到尽可能多的候选区域
-
第二个基于部分的子网络对网络预期关注的候选区域进行分类。
-
ResNet50
- 最后一个全连接层被替换为全局最大池化层,以实现更快的收敛和更好的泛化
-
提取以检测到的零件位置为中心的大小为 W × H 的局部相邻区域
-
-
-
下采样会增加丢失对坑洞识别至关重要的判别特征的风险
-
全卷积架构 (FCN) [32] 的位置敏感特性
-
×3 的简单高斯平滑滤波器和阈值技术来降低噪声并避免弱检测
-
二元交叉熵损失作为分类损失
-
-
特点
-
数据探索
- 坑洼是路面上的碗状孔洞,表现出强烈的纹理线索,是最普遍的道路损坏类型之一。
- 形状、比例和阴影上表现出广泛的多样性,并具有各种照明效果,而这些照明效果通常伴随着高度复杂的背景
- 实例往往更小,判别性细节和特征被模糊或隐藏
-
路面坑洼的识别通常首先尝试找到更有可能包含坑洼的区域,然后将这些区域放大到更大的分辨率,并专注于可区分的部分
-
阈值高于 ground-truth 最大值 10% 的区域进行分割
- LCNN 的召回率很高,这可能会产生许多候选者,并且会导致下一个过程中时间消耗的线性增长
- 排序前L个取出来
-
LCNN 中涉及的大量子采样,检测到的坑洞中心可能是未对齐的
-
-
创新点
- 位置感知卷积神经网络的坑洞检测新方法
- 侧重于道路中的判别区域,而不是全局上下文
- 受到用于图像分类任务的细粒度工作成功的启发[
- 低分辨率的下采样图像找到候选区域,这样可以减少计算量,然后网络将注意力集中在全尺寸图像的区域上
-
-
二维视觉中的坑洞检
fishyscapes??
PotSpot: Participatory sensing based monitoring system for pothole detection using deep learning【2021】
-
略读
-
数据集
-
论文
- 端到端系统,用于实时检测、监控和空间映射整个城市的坑洞
- 为了通过该系统提供端到端服务,坑洞检测和坑洞映射都通过一个安卓应用程序集成
- Google Maps API(应用程序编程接口)的帮助下生成实时坑洞标记地图
- 10 折交叉验证。所提出的模型已达到 97.8% 的验证准确率
-
代码
-
网络
- 避免过拟合,这个预训练模型的所有隐藏层都被冻结,只在平均池化层之上添加了一个密集层和 0.5 的 dropout,而不是加载 InceptionV3 模型的全连接层,以使其适合我们的模型
-
特点
-
创新点
- 坑洞图像的实时分类
- 以帮助人们定位坑洼的端到端系统
- 不牺牲性能的情况下处理越来越多的数据。它可以通过将云服务整合到系统中来实现。云可扩展性还确保了成本效益
- 智能手机应用程序提供坑洼的空间映射
- android 应用程序来捕获坑洞图像并将其位置存储到 Firebase 数据库
-
-
主要贡献在应用层面和详细的文献综述,讨论了一种可行的部署方案
-
自己数据集
此领域传统算法仍然很多
Real-time machine learning-based approach for pothole detection 【2021】
-
略读
-
数据集
-
论文
- 随机森林树模型
-
代码
-
网络
-
特点
-
创新点
- 2 秒非重叠移动窗口进行预处理,以提取相关统计特征以训练二元分类器
-
Pothole Detection Based on Disparity Transformation and Road Surface Modeling
Rethinking Road Surface 3D econstruction and Pothole
detection: From Perspective Transformation to Disparity Map Segmentation 2020
重新思考路面 3D 重建和坑洞检测:从透视变换到视差图分割
-
视差图估计和分割的高效坑洞检测算法
-
立体钻机滚动角来概括透视变换
-
半全局匹配估计道路差异
-
执行视差图变换算法以更好地区分损坏的道路区域
-
线性迭代聚类将变换后的视差分组为一组超像素
-
查找超像素来检测坑洼,这些超像素的值低于自适应确定的阈值
-
3D geometry can be reconstructed in a Structure from Motion (SfM)
-
近年来,表面建模(SM)已成为一种流行且有效的坑洞检测技术[27]-[29
-
实际路面有时是不平坦的,这使得二次曲面建模有些问题
- 排水
-
we 3 generalize the perspective transformation (PT) proposed in [4], by incorporating the stereo rig roll angle into the PT process, which not only increases disparity estimation accuracy but also reduces its computational complexity
-
半全局匹配(SGM)[31]被用于密集亚像素视差图估计
-
PT-FBS,这是一种 GPU 友好的视差估计算法,已被证明是完全连接的 MRF 模型中能量最小化问题的一个很好的解决方案
-
布雷等人。 [21] 还训练了一个神经网络 (NN) 来检测和分类道路损坏。然而,监督分类器需要大量标记的训练数据。这种数据标记过程可能非常耗费人力[5]
-
用了kmeans,k=2
- 只能同时找出一个坑
-
道路坑洼检测数据集可在以下网址公开获得:sites.google.com/view/tcyb-rpd
- 404
分割任务
DLT-Net
WarpCut – 单目视频中的快速障碍物分割
WarpCut – Fast Obstacle Segmentation in Monocular Video 2007
-
单个摄像头记录的视频中快速分割静止障碍物
- 地平面、背景和障碍
- 单目视频中的运动中准确分割静止障碍物的方法
-
略读
-
数据集
-
论文
- 移动物体可以很容易地通过基于光流的方法或 - 在车辆应用中 - 通过雷达来检测
- 分割必须是通用的,因为它们不能依赖于关于障碍物颜色或形状的特定假设
- 数学上,这种无约束的运动分割是一个高度不适定的问题
- 必须估计区域中的运动场
-
代码
-
网络
-
特点
-
估计在分割过程中被迭代地细化
-
二元分割问题通过运动补偿差分图像上的图形切割来解决
-
无需事先了解障碍物的大小、形状或基点
-
相对像素运动非常小
- 物体仍然远离驾驶车辆时,
-
-
创新点
- 最后两帧和前一个分割将其分割为障碍物和非障碍物区域
- 障碍物检测系统给出了近似的障碍物距离估计
- 标签基于运动信息
-
-
障碍深度估计
- 当前图像相比更高的灰度值差异
- 除了遮挡伪影之外,分割结果非常精确
A Benchmark for Anomaly Segmentation
异常分割的基准
-
略读
-
数据集
- 基准测试结合了两个新的异常分割数据集
-
论文
- https://www.arxiv-vanity.com/papers/1911.11132/
-
review
-
Krešo等人。[ 22 ]在多个语义分割域上进行训练,如果来自 WildDash 驱动数据集的图像区域被分割为来自不同域的区域,即室内类,则将它们视为分布外区域
-
医学异常分割和产品故障检测
- 基于重建的方法需要对干净数据进行良好建模才能工作
- 来自街景的复杂图像。这些图像在场景布局和照明方面具有很高的可变性,因此不太适合基于重建的技术。
-
模拟驾驶环境自然地插入异常3D 模型来克服这些问题到场景中,而不是通过叠加 2D 图像
-
我们确保在测试时看到的所有异常都来自完全看不见的类别,并且没有以任何方式进行调整,因此我们不与诸如此类的技术进行比较[ 25 ]。
-
-
代码
-
网络
-
特点
-
带有异常对象的真实图像的 BDD-Anomaly 数据集
- 们将不常见的对象类保留为异常
- 将此数据集与 StreetHazards 相结合,形成组合异常对象分割 (CAOS) 基准
-
探索使用多标签分类器进行分布外检测,并在此设置中评估几种新的检测机制
-
模拟驾驶环境自然地插入异常3D 模型来克服这些问题到场景中,而不是通过叠加 2D 图像
-
-
创新点
-
此外,我们改进了大规模多类数据集的分布外检测器,并为以前未探索的多标签分布外检测设置引入了检测器
-
使用真实图像和来自模拟驾驶环境的图像,我们确保背景上下文和各种异常对象自然地整合在一起
-
数据集要怎么做
-
简单地将异常对象剪切和粘贴到图像中会引入各种不自然的赠品线索,这些线索过度简化和轻视异常分割的任务,例如边缘效应、不匹配的
-
模拟驾驶环境来创建异常分割数据集,我们称之为 StreetHazards
- 虚幻引擎和开源 CARLA 模拟环境
-
-
BDD-Anomaly 数据集填补了 Lost and Found 中的几个空白
-
训练期间,由于图像数量不足以进行正确的均值和方差估计,我们冻结了批归一化参数
-
-
-
总结
-
数据集要怎么做
-
简单地将异常对象剪切和粘贴到图像中会引入各种不自然的赠品线索,这些线索过度简化和轻视异常分割的任务,例如边缘效应、不匹配的
-
模拟驾驶环境来创建异常分割数据集,我们称之为 StreetHazards
- 虚幻引擎和开源 CARLA 模拟环境
-
-
CAOS 基准通过评估现实和多样化异常的检测器,改进了以前对驾驶场景中异常分割的评估
- AUROC、AUPR 和 FPR 进行评估
-
BDD-Anomaly 数据集填补了 Lost and Found 中的几个空白
-
训练期间,由于图像数量不足以进行正确的均值和方差估计,我们冻结了批归一化参数
-
Lost and Found 数据集
MergeNet
-
略读
- 双目深度方案
- 网络结构创新,融合深度信息
-
论文
- https://www.connectedpapers.com/main/c0731e3d9dc5450901ca2a0365f53350aedfef09/MergeNet:-A-Deep-Net-Architecture-for-Small-Obstacle-Discovery/graph
- https://arxiv.org/abs/1803.06508v1
A Novel Multi-layer Framework for Tiny Obstacle Discovery
-
略读
-
单目方案
- 依赖于边缘框和边缘遮挡
-
关注远距离危险障碍物
-
https://www.arxiv-vanity.com/papers/1904.10161/
-
-
精度
-
related works
- 视觉障碍发现主要分为三类:基于相关性的方法[ 1 ] [ 2 ]、基于分割的方法[ 3 ] [ 4 ]和基于提议的方法[ 5 ] [ 6 ]
-
Detecting Unexpected Obstacles for Self-Driving Cars:
Fusing Deep Learning and Geometric Modeling
数据集资源
- https://knowyourdata-tfds.withgoogle.com/#dataset=lost_and_found&tab=STATS&relations=kyd%2Fcloud_vision%2Fface_probability,kyd%2Flost_and_found%2Fsplit&draw=kyd/lost_and_found/has_segmentation_label,img,segmentation_label&auto_draw=false
- TensorFlow有数据集探索的代码
Lost and Found: Detecting Small Road Hazards for Self-Driving Vehicles
失物招领:检测自动驾驶车辆的小道路危险
-
数据集提出的论文
-
FPHT
-
PHT
-
略读
- 直接平面假设
- lost and found 数据集提出
-
-
-
超过两千帧的障碍物和自由空间的像素注释
- 丢失货物图像序列数据集
-
在 20 m 距离以低误报率成功检测到 5 cm 高的小障碍物
Dense anomaly detection by robust learning on synthetic negative data
- 将人工底片粘贴到常规训练图像中获得的混合内容图像
复杂驾驶场景中的逐像素异常检测
Pixel-wise Anomaly Detection in Complex Driving Scenes
-
综合两种方法
-
利用分割不确定性来识别异常区域
-
从语义标签图中重新合成图像以发现与输入图像的不同之处
- 益于不需要重新训练分割网络
-
-
成就
-
显着提高了所有数据集的 AP。将 FS L&F 和 FS Web 的 FPR95 降低了 50%
- 保持私榜泛化性能
-
-
切入点
-
异常实例分析
- 首先,异常实例被正确分割并分类为训练类之一(即鸟被混淆为人)(顶部)。其次,异常实例被多个类过度分割(即狗被检测为人、植被和地形类的组合)(中)。第三,异常实例与背景混合,未检测到(即框与街道分割混合)(底部)。
-
分割性能和异常检测之间存在权衡
-
-
结构
- 训练阶段在框架中分离,在测试阶段紧密集成
-
主要实验中没有使用道路异常数据集,因为它仅包含六十 (60) 张图像,这不足以确保在异常分割中具有适当的泛化能力。此外,异常对象的注释不一致。例如,路中间的一块岩石被标记为异常。然而,道路旁边的相同风格的岩石被归类为内陆。
LF
-
直接假设平面 pht
- 假设地平面
-
fpht
- 对于校准的立体相机,可以使用简化的参数化,减少自由参数的数量和优化问题的复杂性
-
数据集
- 概况
- 由总共 112 个视频立体序列组成,带有对自由空间区域的粗略注释和对道路障碍物的细粒度注释。每 10 帧提供一次注释,总共有 2104 个带注释的帧
-
后续被fishyscapes标准拿去做训练集
Dense anomaly detection by robust learning on synthetic negative data合成负数据 的鲁棒学习进行密集异常检测
-
混合图像训练,合成的负补丁,训练和推理一致应用的原则性信息论标准来检测异常
-
合成的负补丁扩展了这种方法,同时实现了高内部似然和统一的判别预测
-
建议根据可以通过训练和推理一致应用的原则性信息论标准来检测异常
-
训练
-
最小化内点的交叉熵来训练判别模型
- 最大化粘贴底片的预测不确定性
-
补丁粘贴在随机位置
-
辅助负数据集不需要了
-
就是粘贴策略换了一下
- 随机位置粘贴异常(参见图4,左)。这通过适应阴影和照明
-
-
搜索 f-divergences 集以获得更稳健的损失函数
- KL 散度的强烈惩罚。这种损失使判别模型降低了对内部内容的置信度,因此触发了异常检测器的频繁误报响应,也使得模型性能下降
- JS散度好用
-
-
网络
- 负补丁X-我们将其粘贴在原始内部图像上 - 生成的混合内容图像
X’被馈送到经过训练以区分内部像素的密集分类器(Cls)并提高负像素的统一预测
-
- 成就
生成对抗Detecting the Unexpected via Image Resynthesi
-
intro
- 生成的语义图重新合成图像将产生相对于输入图像的显着外观差异
- 将检测未知类别的问题转化为识别重新合成不佳的图像区域的问题
-
方法
-
原始图像、重新合成的图像和预测的语义图作为输入,生成一个表示意外对象的二进制掩码
-
适用于在测试时检测从未见过的类
-
训练了第二个网络,我们称之为差异网络,以检测显着的图像差异
-
相关性来检测两个输入图像中同时出现的对象
- 首先从输入中提取特征。我们对原始图像和重新合成的图像使用预训练的 VGG [39] 网络,并使用自定义 CNN 来处理预测的 one-hot 表示
- 计算真实图像的特征和重新合成的特征之间的逐点相关性,并将其与减少的级联特征一起传递到返回最终差异分数的上卷积金字塔
-
-
问题
- 生成出来的图域泛化性能如何,比如路面、周边建筑
-
优势
-
解决数据集问题
-
可以使用其他领域pretrain
- 只需要生成检测部分即可
-
SOD
-
贡献
- 新的雷达、视觉联合标定方法
- lidar+视觉小障碍物数据集和模型
-
深度信息
-
小型 1-D 卷积网络,以将路缘边界内的每个点分类为道路或障碍点。
-
设计规则套公式
- 断点检测:我们在点云的每个环内识别几何断点
-
将道路上检测到的 LiDAR 不连续性与图像空间中附近的地面实况小障碍物分割标签对齐
-
-
标定
- 基于 Haussdorf 距离
- 小障碍物检测任务来说,微小的校准误差可能会带来极大的问题
-
方法
- pretrain是在 CityScapes 数据集上进行的。
- 骨干网DeepLab-V3
模板
略读
- 数据集
- 论文
- 代码
- 网络
- 特点
- 创新点
精读(有代码)
- 详细网络结构
- trick
- code
- 传感器类型
- 评价指标