环境感知模型


一、 按任务类型划分

这是最经典的分类方式,根据模型要解决的具体问题来划分。

1. 2D目标检测
  • 任务:在图像中找到所有特定类别的物体(如车、人),并用2D矩形框标记出来。
  • 核心输出[x_min, y_min, x_max, y_max, class, confidence]
  • 经典模型
    • YOLO系列:速度快,兼顾精度,是工业界的宠儿。
    • Faster R-CNN:两阶段检测的经典,精度高,速度稍慢。
    • SSD:单阶段检测,在速度和精度间取得了良好平衡。
  • 在智驾中的作用:主要用于障碍物存在性判断粗略定位,是更高级任务的基础。例如,触发前方碰撞预警。
2. 语义分割
  • 任务:对图像中的每一个像素进行分类,将其划分到预定义的类别(如天空、道路、车辆、行人)。
  • 核心输出:一张与输入图像同尺寸的分割图,每个像素都有其类别标签。
  • 经典模型
    • U-Net:编码器-解码器结构,在医学影像和自动驾驶中应用广泛。
    • DeepLab系列:使用了空洞卷积和ASPP模块,能更好地捕捉多尺度上下文信息。
  • 在智驾中的作用可行驶区域分割车道线分割高精地图矢量化生产的前置步骤。它提供了非常精细的环境理解。
3. 实例分割
  • 任务:语义分割的升级版,它不仅要区分像素的类别,还要区分不同的物体实例。比如,能分出“车A”、“车B”、“车C”,而语义分割只会把所有车都归为“车辆”这一类。
  • 核心输出:为每个独立的物体实例生成一个分割掩码
  • 经典模型
    • Mask R-CNN:在Faster R-CNN基础上增加了一个分割分支,是实例分割的奠基性工作。
  • 在智驾中的作用:当需要精确知道每个障碍物的轮廓时(如近距离切割、不规则物体),实例分割非常有用。
4. 3D目标检测
  • 任务:检测物体在三维物理空间中的位置和姿态,输出3D边界框
  • 核心输出[x, y, z, length, width, height, yaw, class] (中心点坐标、尺寸、偏航角)
  • 数据源
    • 基于LiDAR:直接处理点云数据。模型如 PointPillars, VoxelNet, PointRCNN。精度高,是SparseOd的典型实现方式。
    • 基于视觉:通过单目或双目图像估计3D信息。您之前问到的Mono就属于这一类。
    • 多传感器融合:结合相机和LiDAR的优势,是未来的主流方向。模型如 MV3D, FusionPainter
  • 在智驾中的作用精准的空间定位和碰撞风险评估,是规划控制的直接输入。
5. 车道线检测
  • 任务:专门用于检测道路上的车道标记。
  • 技术演进
    1. 基于图像分割:将车道线像素分割出来,然后通过后处理拟合曲线。
    2. 关键点检测:将车道线视为一系列关键点进行检测。
    3. 参数化曲线拟合:直接输出车道线的曲线参数(如三次样条曲线)。
    4. BevLane范式:如前所述,通过IPM或深度学习模型转换到鸟瞰图下进行检测,效果最好,已成为主流。
  • 在智驾中的作用车道保持、自动变道、导航的基础。

二、 按技术范式划分

这是理解当前技术发展趋势的更高级视角。

1. BEV感知

这是当前最炙手可热的技术范式,可以看作是之前各种任务的“融合器”和“性能助推器”。

  • 核心思想:在模型早期,就将来自多个摄像头的图像特征,通过TransformerMLP等网络,统一转换到同一个鸟瞰图 坐标系下。
  • 巨大优势
    • 无遮挡:在BEV空间下,来自不同相机的特征可以自然融合,消除了单个相机视角的盲区。
    • 多任务统一:在BEV特征图上,可以同时进行3D检测、车道线检测、可行驶区域分割等任务,结构非常优雅。
    • 易融合:BEV特征很容易与高精地图、LiDAR点云进行融合。
  • 代表性工作
    • LSS:开创性地提出了通过预测深度分布来提升图像到BEV的转换。
    • BEVFormer:使用Transformer时序融合,成为了BEV感知的标杆之作。
    • 您之前提到的BevLane,就是BEV范式在车道线检测上的成功应用。
2. Occupancy Networks
  • 核心思想:不再将世界看作是“稀疏”的物体盒子,而是将其划分为一个个细小的3D体素,然后预测每个体素是否被占用。它输出的是一个3D的占据栅格图。
  • 与传统3D检测相比的优势
    • 能描述任意形状:可以很好地处理卡车上的货物、异形车辆、动物等难以用标准3D框描述的物体。
    • 更细致的几何理解:能感知到障碍物的细节轮廓和未被占用的自由空间。
    • 应对长尾问题:对训练集中未出现过的物体类别,只要它占据空间,就能被检测为“占用”。
  • 代表性工作Tesla的Occupancy Networks 让这一技术范式大火,现在已成为众多厂商研究的方向。
3. 端到端自动驾驶
  • 核心思想:这是一个更宏大的愿景。它试图用一个单一的、庞大的深度学习模型,直接接收传感器数据(图像/点云),然后输出控制信号(方向盘转角、油门、刹车),彻底取代传统的“感知-预测-规划”模块化流水线。
  • 优势与挑战
    • 优势:避免模块化 pipeline 的信息损失和误差累积,可能做出更优的全局决策。
    • 挑战:数据需求巨大、模型极其复杂、可解释性和安全性验证困难。
  • 代表性工作TransFuser, UniAD 等。这是自动驾驶技术的“圣杯”,但目前仍处于前沿探索阶段。

总结与关系图

为了方便您理解,我们可以这样看这些模型的关系:

传统范式(任务驱动)
传感器数据 -> [2D检测 / 分割] -> [3D检测 / 车道线检测] -> 规划控制

现代范式(BEV驱动)
多相机图像 -> BEV特征生成器 -> 在统一的BEV空间下执行:3D检测 + 车道线检测 + 占据网络... -> 规划控制

为了更直观地展示这些环境感知模型的关系与演进,我为您绘制了以下知识图谱:

环境感知模型
按任务类型
按技术范式
2D目标检测
图像分割
3D目标检测
车道线检测
语义分割
实例分割
基于LiDAR
SparseOd典型
基于视觉
Mono3D
多传感器融合
BEV感知
当前主流范式
Occupancy网络
描述任意形状
端到端
未来探索方向
代表性模型
BEVFormer
您之前问到的BevLane
核心优势
解决长尾异形物体
最终目标
感知决策一体化
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_长风_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值