作者 | 深蓝学院 编辑 | 深蓝AI
点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
本文只做学术分享,如有侵权,联系删文
英伟达创始人黄仁勋曾预测,人工智能的下一个浪潮将是具身智能,而这个预测正在变成现实。具身智能俨然成为全球前沿科技的创新和投资爆点,要想实现真正的具身智能场景通用现实中在感知能力、执行能力、学习能力、自适应能力等方面还存在着挑战。处在科技变革的当下,我们每个人都不能落后。
基于此,我们特意邀请清华大学交叉信息研究院-庄子文博士,来深蓝学院进行了一场公开分享。同时,对期间聊到的几个Q&A进行简要梳理,以期与诸位同行,进一步深入探讨。(视频版60min+,可文末扫码获取)
1
—
仿真与真实世界的机器人之间的差别如何处理?有些是无法仿真的,怎么处理?
清华大学庄子文博士:其实这就是只用仿真去做强化学习训练的一个瓶颈。你只能将能够仿真的部分放入模拟器中,对于那些无法仿真的部分,我们只能进行近似处理。例如,在处理软体动力学约束时,我们无法直接仿真穿透体积,那我们就需要自己写一个算法去采样和估计。对于这些无法仿真的点,可能唯一的解决方案就是进行近似,而且近似的准确性越高越好。不过,即使近似不是非常准确,它也有可能被应用到实际中。
源自:庄子文博士相关论文,文末扫码获取
2
—
一个好的仿真器在深度强化学习中的作用,像自动驾驶这种需要在公开道路与其他驾驶员交互的任务由于缺少好的仿真器是不是很难应用深度强化学习落地?
清华大学庄子文博士:对。在足式机器人领域,它们只需要与环境或者相对静态的物体进行刚体碰撞,因此不太需要复杂的交互。我们这个课题组之前也做过强化学习和自动驾驶的研究。
在自动驾驶中,比较困难的是与车辆、行人以及道路上各种未定义的实体进行交互,这些交互其实很难建模。对于足式机器人而言,刚体碰撞仿真已经研究了很长时间,只是最近才被大规模应用于模拟器中或者是写成了扩大模拟器。所以关键在于如何将这些建模或者是模拟在计算机或模拟器中。因此,深度学习能否成功落地,取决于所面临的环境和模拟器的真实程度。对于自动驾驶来说,最难的部分是对各种智能体的交互进行建模,这可能是深度强化学习性能能否落地的瓶颈所在。
3
—
如何做到sim2real2sim的闭环,也就是如何把real的数据反馈给sim中,从而不断减小sim和real的gap?
清华大学庄子文博士:这个问题其实在2020年ETH(苏黎世联邦理工学院)的早期研究工作已经提出了一个解决方案,大家可能听说过,或者在代码中也有所体现,这个方案叫做“Actuator Net”。这个方案认为电机的性能曲线,根据转速和峰值扭矩的曲线,并不是线性的。特别是在高转速时,电机的电流和输出扭矩也可能不是线性的。因此,他们当时认为需要用神经网络去建模这种非线性关系。
然而,现在随着电机制造技术的进步,在例如机器狗这样的尺寸下,电机的扭矩执行的线性程度已经非常好了。在目前的场景下,real2SIM这一步可能没那么必要了。当然,如果遇到更复杂的环境,可能还是需要这样的建模。但就现在来看,可能不一定那么必要了。
源自:庄子文博士相关论文,文末扫码获取
4
—
请问若想让四足变成后腿站立行走一般可以采用什么方法?
清华大学庄子文博士:可能需要引入一些特定的策略。你只需告诉机器人,你希望他不要前面两只脚踩在地面上以及前面任何一个肢体不要碰到地面。这样的要求在reward function中应该比较容易实现。当然,需要注意的是,当机器人站立起来后,它的基座框架(base frame)的rotation会发生变化,它的正前方实际上是机器人基座z轴的负方向。因此,在计算移动指令时,可能需要考虑到这一点,以避免出现差异。
源自:庄子文博士相关论文,文末扫码获取
5
—
一个硬件比较差的四足,该怎么设置奖励实现sim2real?驱动器网络有意义吗?
清华大学庄子文博士:这个奖励函数其实不需要太复杂,就是我们之前说的前进移动。可以参考《Deep Whole-Body Control: Learning a Unified Policy for Manipulation and Locomotion》那篇文章,他们的奖励函数设计得更简单。实际上,设计奖励函数时,关键点在于使用Perlin Noise地形,以及确保模拟器中的机器人能够根据牛顿力学进行物理仿真。这意味着需要一个力控系统,即机器人的动作需要遵循物理定律。
至于Actuator Net,它实际上是基于ETH(苏黎世联邦理工学院)的硬件制造技术。当时的硬件制造已经相当成熟,包括现在市面上可以买到的各种机器狗,它们的硬件制造技术也很好。因此,电机的线性特性非常好,Actuator Net可能存在的意义不大。但如果电机的线性特性不佳,或者非常接近电机的执行极限,那么可能还是需要一个驱动系统的网络来对电机的扭矩进行精确模拟。
6
—
落地应用是否必要建立真实场景训练,比如工厂巡检很强调稳定行走,只有窄路斜坡等地形?
清华大学庄子文博士:我的理解是不用建一个一模一样的工厂的场景,而是定义出机器人需要解决的问题。我们会选择穷举成本较低的方向,比如通过生成地形。因为生成地形只需要生成高度图,所以放在深度学习的角度看,我们的任务是明确定义机器人将遇到的问题,并让机器人学会如何应对这些问题。
源自:庄子文博士相关论文,文末扫码获取
7
—
在您的仿真训练和任务规划中,是否会考虑到机器人每个关节的约束呢?在部署到实际系统的时候,一般是需要重新做系统辨识吗?
清华大学庄子文博士:这里涉及到两个问题。首先,是否需要考虑机器人每个关节的约束?答案是肯定的。我们在奖励函数中加入了一项策略,即会随着机身接近关节限位或离最大扭距太近而增大。其次,在实际部署时,通常不需要重新进行系统辨识。这是因为在我们的神经网络中,我们使用了GRU(Gated Recurrent Unit),它能够根据历史信息推断出不同机器人的执行特征。这些特征在domain randomization过程中已经被采样,意味着我们在模拟器中已经考虑了所有可能的制造误差。这些误差在训练过程中可以被GRU隐式地推理出来,从而让我们了解机器人的实际状态。
源自:庄子文博士相关论文,文末扫码获取
8
—
在仿真训练阶段,外部环境高度点云一般围绕在机器人周围,但在实际机器人中,很难直接获取和仿真中一样分布的点云数据,您是如何处理实际机器人外部环境深度点云数据的呢?
清华大学庄子文博士:比较关键的一点是,对于四足机器人来说,他们的摄像头是朝前看的。因此,我们只需要采样他们能看得到的地面区域。例如,对于人形机器人来说,他们的摄像头是辐射状的,我们只需要大致估计一下他们能看到的前面哪一部分地形就足够了。只要保证他们看到的地形是在一个相似的区域内。因为对于机器人的移动行为影响最大的其实还是机器人前方以及离脚最近的那一小片区域。所以只要是两种感知,不同的深度感知或者高度感知,能够涵盖到比较关键的这部分区域,就可以去做比较好的整流了。
① 2025中国国际新能源技术展会
自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行,展览面积达到2万平方米,预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展,它将全面展示新能源汽车行业的最新成果和发展趋势,同期围绕个各关键板块举办论坛,欢迎报名参加。
② 国内首个自动驾驶学习社区
『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫描加入

③全网独家视频课程
端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
④【自动驾驶之心】全平台矩阵