RDT-1B: A DIFFUSION FOUNDATION MODEL FORBIMANUAL MANIPULATION

发表时间:arxiv Oct 2024

论文链接:ReadPaper

作者单位:Tsinghua University

Motivation:Bimanual manipulation is essential in robotics, yet developing foundation models is extremely challenging due to the inherent complexity of coordinating two robot arms (leading to multi-modal action distributions) and the scarcity of training data. (也是从数据稀缺的角度切入)

解决方法:RDT建立在扩散模型的基础上,有效地表示多模态,具有可扩展的Transformer的创新设计来处理多模态输入的异质性,并捕获机器人数据的非线性和高频。为了解决数据稀缺问题,我们进一步引入了一个物理可解释的统一动作空间,它可以统一各种机器人的动作表示,同时保留原始动作的物理含义,促进学习可转移的物理知识。

统一的动作空间是如何定义的?是如何促进学习可转移的物理知识的?

是一个256维度的向量。(为了进一步使在异构数据上训练 RDT,我们提出了物理可解释的统一动作空间,这是各种带有夹持器臂的机器人的统一动作格式。这种创新的格式减轻了不同机器人之间的潜在冲突,同时保留了原始动作的物理含义,这可以促进模型学习跨不同机器人数据集的可泛化物理知识。)

是当时发表的the largest diffusion-based foundation model for robotic manipulation(1.2B parameters)。

特点:

  • zero-shot generalization to unseen objects and scenes。

  • understands and follows language instructions

  • learns new skills with just 1∼5 demonstrations(few-shot)。

实现方式:RDT employs Diffusion Transformers (DiTs).

对于表现力,RDT 通过利用扩散模型对复杂分布进行建模的能力,擅长从海量数据中捕获双手动作的完整模式。

对于可扩展性,我们利用 Transformer 主干并精心设计多模态编码以消除各种模态的异质性。

模型输入:

  1. Low-Dimensional Inputs are low-dimensional vectors that represent physical quantities of the robot,包括本体感觉、动作块和控制频率。为了对它们进行编码,我们使用 MLP(具有傅立叶特征),它可以有效地捕获低维空间中的高频变化。

  2. Image Inputs are high-dimensional and contain rich spatial and semantic information. To extract compact representations, we use an image-text-aligned pre-trained vision encoder, SigLIP. We fix its weights during training to save GPU memory.

  3. Language Inputs are of varying length and highly abstract, posing integration challenges due to their complexity and ambiguity. To encode them, we use a pre-trained Transformer-based language model, T5-XXL . We also fix its weights during training to save GPU memory.

对DiT的修改:QKNorm & RMSNorm(稳定计算) + MLP Decoder(为了提高非线性机器人动作的近似能力,我们将最终的线性解码器替换为非线性 MLP 解码器,作为从潜在空间投影回物理空间的投影。) + Alternating Condition Injection(在我们的模型中,图像和语言输入用作长度高维和可变的条件(扩散模型的condition),与传统的 DiT 中的类标签条件形成对比)。

具体扩散过程:

实验:Training on Heterogeneous Multi-Robot Data. Specifically, our collection of pre-training datasets includes 46 datasets of various robots, with a total size of 1M+ trajectories and 21TB.

Collecting a Comprehensive Multi-Task Bimanual Dataset.

消融研究表明,扩散建模、大模型大小和大数据大小都有助于提高性能。

结论RDT not only demonstrates significant improvements in dexterous bimanual capability and instruction following but also achieves remarkable performance in few-shot learning and zero-shot generalization to unseen objects and scenes。

03-14
### 关于RDT-1B的技术信息 RDT(Resource Director Technology)是一种由英特尔开发的技术,用于优化数据中心资源分配和性能管理。它主要包括两个子功能:CAT(Cache Allocation Technology)和CMT(Code and Memory Traffic Monitoring)。然而,在现有引用中并未提及具体名为“RDT-1B”的技术文档或资料[^1]。 通常情况下,“RDT-1B”可能是指某种特定版本或者扩展功能的代号。为了进一步确认其具体内容,建议从以下几个方面入手: #### 1. 官方文档查询 可以通过访问英特尔官方开发者网站获取最新的技术文档和支持材料。例如,intel-cmt-cat工具包提供了关于CAT、CMT等功能的具体实现方法以及API说明。 ```bash https://github.com/01org/intel-cmt-cat ``` 此项目包含了详细的README文件和技术指南,解压并编译后可通过`pqos`命令行工具测试相关功能。如果需要更深入的信息,则需查阅Intel Software Developer Manuals中的相关内容。 #### 2. 功能特性概述 假设“RDT-1B”代表某个增强版的功能集合,以下是基于已有RDT框架推测的一些潜在改进方向: - **缓存分区细化**:相比基础版,增加了更多粒度级别的控制选项。 - **内存带宽监控精度提升**:支持更高分辨率的数据采集能力。 - **跨平台兼容性加强**:适配不同操作系统环境下的资源配置需求。 实际应用时还需要注意操作系统的内核版本是否满足最低要求,并正确配置动态链接库路径以避免运行错误: ```bash export LD_LIBRARY_PATH=/usr/local/lib ``` #### 3. 社区讨论与技术支持 除了官方渠道外,还可以借助社区力量寻找答案。Stack Overflow 或 Reddit 上常有工程师分享实践经验;另外也可以尝试联系销售代表索取白皮书或其他形式的产品介绍资料。 --- ### 示例代码片段展示如何初始化intel-cmt-cat工具 以下是一个简单的Python脚本示例,演示如何调用外部shell命令完成基本设置过程: ```python import os import subprocess def setup_rdt(): try: # 设置LD_LIBRARY_PATH变量 os.environ['LD_LIBRARY_PATH'] = '/usr/local/lib' # 编译安装源码包 result = subprocess.run(['make', '&&', 'make', 'install'], check=True) print("Installation completed successfully.") except Exception as e: print(f"Error occurred during installation: {e}") if __name__ == "__main__": setup_rdt() ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ming_Chens

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值