DA3 SAM3 SAM3D调研

DA3:

https://github.com/ByteDance-Seed/depth-anything-3

面向单 / 多视图 3D 几何重建与深度估计的极简 Transformer 模型,核心价值在于用统一架构高效输出深度、相机位姿与 3D 几何,适配多场景 3D 理解与重建需求。
机器人通过单目 / 双目相机,实时构建环境 3D 地图并定位自身,实现避障与路径规划;
输入多张散拍图像(如文物不同角度照片),自动生成完整 3D 模型与未拍摄视角渲染图;
    在这里插入图片描述

跟VLA关系:以下两个项目可以通过摄像头视频实时生成深度图;
DA3-ROS2-Wrapper:在 ROS2 中实现实时 DA3 深度,支持多摄像头。
在这里插入图片描述
  
DA3-ROS2-CPP-TensorRT:DA3 ROS2 C++ TensorRT 推理节点:一个用于 DA3 深度估计的 ROS2 节点,使用 TensorRT 进行实时推理。
在这里插入图片描述

SAM3:

https://github.com/facebookresearch/sam3

相比SAM2最大的改进是做了跟文字语义的匹配;
图像 / 视频 PCS 任务性能提升约 2 倍,覆盖 400 万 + 概念;
可理解模糊 / 组合概念(如 “带条纹的猫”),减少人工交互;
解决 SAM2 长时跟踪易漂移问题,VOS 任务性能显著提升;
在这里插入图片描述

以前需要点击物体,现在只需要输入文字即可得到想要的物体的分割结果。
2025-11-20发布的,因此模型权重需要获得审批才可下载使用。
VLA:SAM3可以用于物体的跟踪,作为可以直接调用的模块;

SAM3D:照片点击物体生成对应的3D模型;

https://github.com/facebookresearch/sam-3d-objects
在这里插入图片描述

左侧是原始图片,右侧是生成的3D模型;
好消息是这个跟VLA关系不大,坏消息是这个用不了,需要专门的许可才可以得到对应的模型权重。
在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值