人形机器人“摔倒自由”的背后:一场对精确规划主义的沉默反叛……

「点击加入交流群」

我们造出了人形,却赋不了它“人样”的根基

——这次,机器人自己决定怎么倒下

人形机器人最深的焦虑是什么?

“摔倒焦虑”——这个行业心照不宣的痛点,无疑是核心挑战之一。

传统应对思路往往陷入一个根本性的思维定式:试图让刚性、结构迥异的机械躯体去模仿人类的生物缓冲机制。

这本质上只是“形似”逻辑的延伸:其结果是算法与刚性机身难以适配。

究其原因,这是在用工程学的工具,去解决一个本质上属于生物进化与复杂系统的难题,近乎一种“降维打击”式的徒劳。

而真正关键的突破,恰恰在于跳出 “人形就得学人类” 的思维定式。因此,浙大、西湖大学等团队进行了一项新的研究——

没给机器人灌输任何 “该用哪块身体缓冲” 的人类经验,而是让它在仿真里摔了成千上万次后,自己摸索出了最适配的“摔倒方式”

传统的人形机器人摔倒保护,依赖“类人缓冲特性”(即模仿人类用膝盖、骨盆缓冲),或者按预设轨迹摆动作。但机器人“全身是铁”、高自由度,无法硬套人类逻辑。

为了让机器人 “按自己的身体条件” 找到更“优雅”的摔跤姿势,具体做了三件事:

防止“伪动作学习”的奖励函数

本文研究中设计的奖励函数十分复杂:

  • 既包含对机器人头、躯干、骨盆等关键部位(装了昂贵传感器的)受力的惩罚;

  • 也涵盖了过大关节冲击、过快动作变化以及越界姿态的约束;

从多个维度引导机器人探索安全的摔倒方式。

图片

▲图2|不适合在现实机器人上使用的“错误保护动作”示例:这些是机器人在早期训练中出现的异常动作,例如用手臂生硬顶地等,看似能完成任务,但在真实硬件上极易造成关节受损,因此需要在训练中剔除

但在实验中,典型的 “AI 奖励欺骗(reward hacking)” 问题也会随之出现:

在部分奖励设置下,机器人会做出 “伸直手臂硬顶地面” 的行为 —— 

从理论上看似乎符合 “减少关键部位损伤” 的奖励逻辑,但这种动作在现实场景中会直接导致手臂关节折断,本质是机器人为了最大化奖励而探索出的脱离实际的极端行为。

“三角结构” 分散冲击力

研究最具标志性的发现是:机器人会主动撑手,双臂构成一个稳定三角结构,保护头和躯干。

两条胳膊与上半身形成的稳定支撑体系(类似帐篷形态)——

图片

▲图4|机器人自主学会的“手臂三角结构”:该图突出展示了机器人在训练中形成的关键保护姿势——双臂撑地构成稳定三角形,用来缓冲冲击力,并保护头部与躯干不直接撞击地面

  • 展开双腿降低重心

通过腿部的伸展,让身体的重心(CoM)更贴近地面,进一步降低冲击力的波动。

这就像搭帐篷时,不仅要搭好支架,还要固定好底部,避免被风吹倒。

  • 控制骨盆角度避免硬碰地面

机器人会通过调整腰部俯仰 / 翻滚角度,控制骨盆的姿态 —— 让骨盆以 “倾斜角度” 贴近地面,或通过躯干的轻微扭转,让骨盆的受力点转移到非关键区域。

  • 分散冲击力到多个刚体,而不是单点承受:

如果机器人像传统方法那样 “直臂顶地”(前文提到的 “reward hacking 错误行为”),冲击力会集中在手腕、肘部两个关节;

而三角结构能把冲击力拆分成三条受力路径:手腕→肘部→肩膀→躯干

图片

▲图1|人类与机器人在摔倒瞬间的“保护动作”对比:左侧展示人类下意识的护身动作;右侧两幅图为类人机器人向前与向后摔倒时的自保护姿态。红色线条强调了机器人在学习中自动形成的“手臂三角结构”,用于分散冲击力、保护头部与躯干

特别要说明的是,这个姿态是机器人 “自主发现” 的,而非人类编程设定。

从行为分析来看:它不是简单“模仿人类摔倒姿势”,而是在数千次仿真摔倒训练中,它淘汰了 “直臂硬顶地面”“单臂支撑” 等容易断裂的动作,最终锁定了三角结构 —— 

因为这是最契合其刚性金属机身的受力形态。

多阶段学习,让机器人摔得“越来越难”

随着训练进度的提升,也就是机器人摔倒次数的提升,逐步提升机器人摔倒的样式:

  • 初始姿态更随机

现实中机器人不会等 “摆好姿势” 再摔倒 —— 可能是走路时步幅没调整好、可能是弯腰捡东西时重心偏移、可能是被撞时正处于转身状态。

因此训练设置也绝非让机器人永远从 “标准站姿” 开始摔倒,而是让初始姿态的随机性持续拉满:基础姿态随机(机器人的 29 个自由度初始位置)、关键部位额外随机、初始速度随机等。

  • 推力更大、方向更不确定

为了应对机器人遇到 “斜着推”“推头部”“力度更大” 等情况就完全失控的问题,设计了“推力三随机”:

推力大小逐步加码、推力方向 360 度全方位、作用部位随机切换。

图片

  • 随机关闭部分关节

模拟现实中机器人 “带伤失衡” 的极端场景:

故障关节随机选、故障时机随机、不限制摔倒轨迹,这一点对 sim2real 迁移至关重要,让机器人学会 “带着故障保安全”,即使现实中遇到硬件问题,也不会完全失控。

图片

▲图3|训练环境的多样化设计(让机器人面对不同摔倒场景):为了让策略更可靠,训练环境会不断“加难度”:随机改变推力大小与方向、改变初始姿态、甚至模拟部分关节失效,让机器人在各类意外情境中都能学会自我保护

仿真环境

实验数据集包括不同方向的推力、不同速度的行走状态,以及多种关节损坏情形。

对比三种基线(无控制、默认姿态控制、未特训策略),RL 学到的“自保护三角形”在三个核心指标上都表现最佳:

  • 碰撞力(Contact Force)显著下降,关键部位冲击被有效分散;

  • 运动动能(Motion Energy)降低,减少摔倒后的滚动与二次碰撞;

  • 关节冲击(Actuation Impulse)整体更可控,说明三角支撑并未带来过高的手臂损伤。

图片

▲图5|机器人在四种典型方向摔倒时的动作表现:从上到下依次为向前、向后、向左、向右摔倒的过程。可以看到机器人会主动调整手臂和腿部姿态,为身体创造最稳妥的落地方式

真机测试

该策略成功迁移到真实 Unitree G1:机器人在被人类推倒的瞬间,会自然撑出三角结构,保护头胸等关键部位,呈现出与模拟一致的稳定行为。

图片

▲图6|真实机器人测试:摔倒瞬间撑出三角结构:在真实环境中,当机器人被推倒时,它会迅速撑开手臂形成三角支撑,成功减少摔倒冲击。这一动作与模拟训练结果保持一致,说明策略成功迁移到真实硬件

虽然这项工作展示的结果很亮眼,但它更像是一次对现实问题的“清醒提醒”。

人形机器人如何控制摔倒,看似在模拟中找到了答案,但本质上仍然脆弱,测试过程中我们看到的全是在平坦地面上做的 —— 

不管是站着、走路,机器人倒地的环境都是光滑平面。

一个核心质疑随之而来:一旦地面不平,机器人还能不能顺利摆出 “三角结构”?

地面的微小起伏、摩擦系数的突变,都可能让精妙的算法链条瞬间崩溃。

说到底,这项工作的核心价值,从来不是发明了一个 “100分的保命动作”,而是跳出行业的思维定式:从复刻人类,转向适配自身特性的自主探索……

这也恰恰揭示了行业的一个根本悖论:当我们执着于赋予机器“人形”这一蓝图,却无法赋予其人类的“神”(生物本能与适应力)时,最终导致我们不得不用庞大的智力与算力,去为这个“美丽的错误”编织一副昂贵的“拐杖”。

——比如,“教会”它如何摔倒……

Ref:

论文题目:Discovering Self-Protective Falling Policy for Humanoid Robot via Deep

Reinforcement Learning

论文作者:Diyuan Shi, Shangke Lyu and Donglin Wang

论文链接:https://arxiv.org/pdf/2512.01336v1

图片素材来源于网络

「点击加入交流群」

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值