RT-2论文深度解读：视觉-语言-动作统一模型的机器人泛化革命

最新推荐文章于 2025-06-28 23:27:49 发布

zhaoyqcsdn

最新推荐文章于 2025-06-28 23:27:49 发布

阅读量995

点赞数 20

CC 4.0 BY-SA版权

分类专栏： VLA 文章标签：机器学习自然语言处理人工智能经验分享笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zhaoyqcsdn/article/details/147197933

1. 核心问题与挑战

传统机器人学习存在两大瓶颈：

数据效率低下：依赖特定场景的机器人操作数据（如抓取、推压），收集成本高
泛化能力局限：模型仅能完成训练中出现过的任务，无法应对长尾场景

RT-2的创新目标：利用互联网规模的视觉语言预训练知识，实现机器人技能的零样本（zero-shot）迁移

2. 方法论突破

2.1 统一语义空间构建

数据范式革新：
- 将机器人动作表示为"语言化"Token序列（如 move_to(x=0.3,y=0.2)）
- 与视觉语言数据共同输入Transformer，建立跨模态联合嵌入空间

模型架构：

class RT2(nn.Module):
    def __init__(self):
        self.vision_encoder = ViT-22B           # 视觉编码器
        self.tokenizer = ActionTokenizer()      # 动作分词器
        self.transformer = Transformer-XL       # 跨模态融合
        
    def forward(self, image, text):
        img_tokens = self.vision_encoder(image)

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄10年

83
原创

1055
点赞

984
收藏

678
粉丝

关注

私信

热门文章

分类专栏

VLA 8篇
设计模式 9篇
C++ 16篇
深度学习 5篇
eigen 3篇
面试 7篇
模型部署 2篇
论文学习 1篇
ros 1篇
性能优化 1篇
cuda 3篇
Apollo 4篇

展开全部收起

上一篇：: 2025年最值得开发者关注的十大技术趋势

下一篇：: 理想汽车MindVLA自动驾驶架构核心技术梳理

最新评论

端到端VLA模型架构：让机器“知行合一”的工程实践
深度瞎学: 这看着有点像是多模态大模型，但是赵行老师他们部署的VLA是不是和这个差别比较大？我看他们论文是快慢模型，慢模型是VLM用来分析情景，然后快模型是传统E2E用来做最终的决策和控制？
使用gpu_burn对显卡进行压测
World Function: 这个温度是热点温度还是核心温度
eigen 由于-match=native 使用不一致导致的coredump
zhaoyqcsdn: 不支持avx512指令集，这个可能性有几个！：编译器版本太低，不支持avx512指令集， cpu架构不支持avx512指令集，你的代码使用了某个只在某类平台才支持的函数，具体是什么原因还得看。
eigen 由于-match=native 使用不一致导致的coredump
pla63850: /usr/local/include/eigen3/Eigen/src/Core/arch/AVX512/TypeCasting.h:59:20: error: ‘_mm512_cmpneq_ps_mask’ was not declared in this scope __mmask16 mask = _mm512_cmpneq_ps_mask(a, pzero(a)); 您好请问上面这个错误是那里除了问题，谢谢
pytorch dataloader 中collate_fn是什么
优快云-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。