多模态融合分割与视频多模态融合分割技术解析
1. 多模态融合分割中的自适应策略
多模态融合分割在自动驾驶领域有着重要应用,MIMF(Multimodal Information Fusion)架构是其中一种有效的解决方案。MIMF 由编码器 - 解码器网络中间的标准特征融合和融合过程中的 DIM 块组成。在融合之前,MIMF 有两个独立的管道来处理不同模态的数据场景。
MIMF 在正常数据上表现更好,这可以用类似于 dropout 的随机正则化效应来解释。由于互信息(MI)独立于网络和数据,同时由数据和目标共同决定,它被视为一个与噪声数据分布不同的随机过程。通过学习与数据无关的输入,网络避免了对数据的过拟合。但需要注意的是,该方法只能在至少一种模态有良好观测的情况下运行,否则主导数据会导致严重问题。
1.1 实验设置
- 数据集和指标 :为了评估模型,我们从 KITTI 道路检测轨道选取约 400 对数据,从 A2D2 数据集选取约 1000 对数据。将 60%的数据用作训练集,10%用于验证,其余用于测试。KITTI 使用 64 线 Velodyne 生成点云,A2D2 则结合了一个 8 线和两个 16 线 LiDAR。由于 KITTI 数据集没有车道线标签,我们手动添加了像素级注释。我们更关注车道线的召回率,并将其计算为车道准确率,同时考虑 F2 分数以平衡网络对任何类别的过拟合情况,并将两个类别的平均召回率计为 mAcc。
- 实现和训练 :为了将 LiDAR 点云和 RGB 图像集成到同一网络中,投影和值归一化是预处理的关键步骤。对于点云投影到
超级会员免费看
订阅专栏 解锁全文
2324

被折叠的 条评论
为什么被折叠?



