研究背景
通用机器人有望广泛应用于家庭辅助、居家养老等场景,通过与现实世界的变革性互动释放人类潜能,而大型行为模型(LBM)作为接收传感器数据并输出动作的具身化人工智能系统,是实现这一目标的关键,其已在海量多样化操作数据集上完成预训练。
但目前,LBM虽日益普及,人们对其实际功能却认知有限,这源于现实世界中对机器人技术进行严格、大规模评估的困难,导致算法和数据集设计进展多依赖直觉而非证据,阻碍了发展,本研究旨在改变这一现状。
研究中的核心方法
模型架构
-
基础框架:基于扩散策略(Diffusion Policy)范式,采用去噪扩散隐式模型(DDIM)生成连续动作,通过噪声预测网络学习从噪声中恢复有效操作序列。
-
网络结构:
-
视觉特征:使用预训练CLIP视觉 Transformer(ViT)提取图像特征;
-
语言特征:通过CLIP文本编码器处理任务指令,冻结编码器但训练投影层;
-
核心网络:扩散Transformer(DiT),包含8个DiT块,嵌入维度768,输入视觉、语言、本体感觉及扩散时间步特征,输出16个时间步的20维动作(双臂操作)。
训练流程
-
预训练:在大规模多任务数据集(Ramen,含1695小时演示,包括532个任务的真实、模拟及 “自然环境” 数据)上训练,学习通用操作表征。
-
微调:针对特定任务,使用少量任务数据微调预训练模型,真实任务微调30k 步,模拟任务微调10k步,学习任务特异性技能。

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



