引言
在人工智能的发展历程中,自然语言处理(NLP)与计算机视觉(CV)的飞速发展已深刻重塑了人机互动的图景。如今,这股变革的浪潮正汹涌澎湃地涌入机器人技术领域,特别是具身智能的崭新篇章。清华大学的研究团队近期取得了具有里程碑意义的突破——揭示了data scaling laws的奥秘。这一发现不仅惊人地揭示了机器人领域与语言模型之间的深刻相似性,更为我们预测数据规模与模型性能之间的关系提供了坚实支撑。
1 研究方法
1.1 数据收集
研究团队借助便携式手持夹爪UMI,在丰富多样的真实环境中精心收集了超过4万条人类演示数据。这些数据广泛覆盖了火锅店、咖啡厅、公园等多种日常场景,更不乏喷泉旁、电梯内等独特环境,为模型训练提供了丰富的素材。


1.2 策略学习方法
研究者们采用了Diffusion Policy方法来从收集的数据中学习机器人控制模型。这种方法是一种模仿学习策略,它通过模拟人类的行为来训练机器人执行特定的任务。Diffusion Policy的核心思想是将动作预测问题转化为一个去噪过程,其中模型需要从噪声中恢复出正确的动作序列。