DA3:
https://github.com/ByteDance-Seed/depth-anything-3
面向单 / 多视图 3D 几何重建与深度估计的极简 Transformer 模型,核心价值在于用统一架构高效输出深度、相机位姿与 3D 几何,适配多场景 3D 理解与重建需求。
机器人通过单目 / 双目相机,实时构建环境 3D 地图并定位自身,实现避障与路径规划;
输入多张散拍图像(如文物不同角度照片),自动生成完整 3D 模型与未拍摄视角渲染图;

跟VLA关系:以下两个项目可以通过摄像头视频实时生成深度图;
DA3-ROS2-Wrapper:在 ROS2 中实现实时 DA3 深度,支持多摄像头。

DA3-ROS2-CPP-TensorRT:DA3 ROS2 C++ TensorRT 推理节点:一个用于 DA3 深度估计的 ROS2 节点,使用 TensorRT 进行实时推理。

SAM3:
https://github.com/facebookresearch/sam3
相比SAM2最大的改进是做了跟文字语义的匹配;
图像 / 视频 PCS 任务性能提升约 2 倍,覆盖 400 万 + 概念;
可理解模糊 / 组合概念(如 “带条纹的猫”),减少人工交互;
解决 SAM2 长时跟踪易漂移问题,VOS 任务性能显著提升;

以前需要点击物体,现在只需要输入文字即可得到想要的物体的分割结果。
2025-11-20发布的,因此模型权重需要获得审批才可下载使用。
VLA:SAM3可以用于物体的跟踪,作为可以直接调用的模块;
SAM3D:照片点击物体生成对应的3D模型;
https://github.com/facebookresearch/sam-3d-objects

左侧是原始图片,右侧是生成的3D模型;
好消息是这个跟VLA关系不大,坏消息是这个用不了,需要专门的许可才可以得到对应的模型权重。

1126

被折叠的 条评论
为什么被折叠?



