DA3 SAM3 SAM3D调研

原创已于 2025-12-19 16:49:18 修改 · 110 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2025-12-19 16:46:43 首次发布

DA3：

https://github.com/ByteDance-Seed/depth-anything-3

面向单 / 多视图 3D 几何重建与深度估计的极简 Transformer 模型，核心价值在于用统一架构高效输出深度、相机位姿与 3D 几何，适配多场景 3D 理解与重建需求。
机器人通过单目 / 双目相机，实时构建环境 3D 地图并定位自身，实现避障与路径规划；
输入多张散拍图像（如文物不同角度照片），自动生成完整 3D 模型与未拍摄视角渲染图；
在这里插入图片描述

跟VLA关系：以下两个项目可以通过摄像头视频实时生成深度图；
DA3-ROS2-Wrapper：在 ROS2 中实现实时 DA3 深度，支持多摄像头。
在这里插入图片描述

DA3-ROS2-CPP-TensorRT：DA3 ROS2 C++ TensorRT 推理节点：一个用于 DA3 深度估计的 ROS2 节点，使用 TensorRT 进行实时推理。

SAM3：

https://github.com/facebookresearch/sam3

相比SAM2最大的改进是做了跟文字语义的匹配；
图像 / 视频 PCS 任务性能提升约 2 倍，覆盖 400 万 + 概念；
可理解模糊 / 组合概念（如 “带条纹的猫”），减少人工交互；
解决 SAM2 长时跟踪易漂移问题，VOS 任务性能显著提升；
在这里插入图片描述

以前需要点击物体，现在只需要输入文字即可得到想要的物体的分割结果。
2025-11-20发布的，因此模型权重需要获得审批才可下载使用。
VLA：SAM3可以用于物体的跟踪，作为可以直接调用的模块；

SAM3D：照片点击物体生成对应的3D模型；

https://github.com/facebookresearch/sam-3d-objects
在这里插入图片描述

左侧是原始图片，右侧是生成的3D模型；
好消息是这个跟VLA关系不大，坏消息是这个用不了，需要专门的许可才可以得到对应的模型权重。
在这里插入图片描述

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。