Grounded-Segment-Anything与自动驾驶:摄像头图像的实时障碍物分割

Grounded-Segment-Anything与自动驾驶:摄像头图像的实时障碍物分割

【免费下载链接】Grounded-Segment-Anything Grounded-SAM: Marrying Grounding-DINO with Segment Anything & Stable Diffusion & Recognize Anything - Automatically Detect , Segment and Generate Anything 【免费下载链接】Grounded-Segment-Anything 项目地址: https://gitcode.com/gh_mirrors/gr/Grounded-Segment-Anything

自动驾驶系统依赖精确的环境感知技术,而摄像头图像的障碍物分割是其中的核心环节。传统方法在复杂场景下常面临误检、漏检问题,Grounded-Segment-Anything(Grounded-SAM)通过结合Grounding-DINO目标检测与Segment Anything(SAM)分割能力,实现了像素级障碍物识别。本文将聚焦其在自动驾驶摄像头图像分割中的应用,尤其是如何通过3D框估计技术提升环境感知精度。

技术架构:从2D分割到3D空间感知

Grounded-SAM的自动驾驶解决方案构建在模块化架构之上,核心包括目标检测、2D分割和3D框生成三个层级:

3D感知系统架构

  • 目标检测层:采用GroundingDINO模型,通过文本提示(如"car"、"pedestrian")实现零样本障碍物检测,输出2D边界框。
  • 2D分割层:基于Segment Anything的掩码生成能力,将检测框细化为像素级掩码。
  • 3D空间转换层:通过voxelnext_3d_box模块,结合激光雷达点云数据,将2D掩码投影为3D障碍物框,实现空间定位。

关键代码实现可见grounded_sam_3d_box.ipynb,其中_draw_3dbox函数(位于voxelnext_3d_box/utils/image_projection.py)负责将3D坐标转换为图像平面坐标。

实时分割流程:从图像输入到障碍物输出

以下是自动驾驶场景中障碍物分割的典型流程,以车辆后视图摄像头为例:

1. 图像采集与预处理

自动驾驶车辆的鱼眼摄像头采集原始图像,如assets/n015-2018-08-02-17-16-37+0800__CAM_BACK_LEFT__1533201470447423.jpg所示,包含车辆、行人等障碍物。

2. 目标检测与掩码生成

通过Grounded-SAM的model接口(grounded_sam_3d_box.ipynb)输入图像和提示点,输出障碍物掩码:

image = cv2.imread(image_path)
prompt_point = np.array([[560, 500]])  # 点击图像中的障碍物
mask, box3d = model(image, point_dict, prompt_point, lidar2img_rt, image_id)

3. 3D框生成与可视化

利用相机内参和外参矩阵(lidar2img_rt),将激光雷达点云与图像掩码融合,生成3D障碍物框:

3D框投影效果

上图显示了车辆后方障碍物的3D框投影结果,不同颜色对应不同障碍物类别。核心算法通过voxelnext_3d_box/model.py中的Model类实现,结合VoxelNeXt稀疏卷积网络完成点云特征提取。

性能优化:移动端部署与效率提升

为满足车载系统实时性要求,项目提供多种轻量化模型选择:

模型变体推理速度(FPS)模型大小适用场景
MobileSAM30+35MB嵌入式摄像头
EfficientSAM25+88MB边缘计算单元
Grounded-SAM (默认)15+938MB车载中央处理器

轻量化实现详见EfficientSAM/目录,其中MobileSAM/setup_mobile_sam.py提供了移动端模型的初始化配置。实际部署可参考grounded_sam_osx_demo.py中的macOS优化方案。

实际应用案例:城市道路障碍物识别

在复杂城市道路场景中,系统展现出强大的障碍物区分能力:

多障碍物分割效果

图中同时检测并分割了车辆、行人、交通锥等多类障碍物,3D框的尺寸和位置精度满足自动驾驶决策需求。关键技术点包括:

未来展望:多模态融合与端到端学习

项目正在探索更先进的感知方案:

  1. 多摄像头协同分割:结合前视、环视摄像头实现360°环境感知
  2. 时序信息融合:利用playground/ImageBind_SAM/的多模态能力,融合音频信号检测紧急车辆
  3. 端到端3D检测:参考VISAM/模块的视觉-激光雷达联合训练框架

相关实验代码可关注项目playground/目录下的最新研究进展,社区贡献指南详见CONTRIBUTING.md

通过Grounded-Segment-Anything技术,自动驾驶系统能够更精准地理解复杂交通环境,为路径规划和决策控制提供可靠的环境感知输入。开发者可基于grounded_sam_demo.py快速搭建原型系统,或参考automatic_label_demo.py实现数据集的自动标注。

【免费下载链接】Grounded-Segment-Anything Grounded-SAM: Marrying Grounding-DINO with Segment Anything & Stable Diffusion & Recognize Anything - Automatically Detect , Segment and Generate Anything 【免费下载链接】Grounded-Segment-Anything 项目地址: https://gitcode.com/gh_mirrors/gr/Grounded-Segment-Anything

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值