
我们造出了人形,却赋不了它“人样”的根基
——这次,机器人自己决定怎么倒下
人形机器人最深的焦虑是什么?
“摔倒焦虑”——这个行业心照不宣的痛点,无疑是核心挑战之一。
传统应对思路往往陷入一个根本性的思维定式:试图让刚性、结构迥异的机械躯体去模仿人类的生物缓冲机制。
这本质上只是“形似”逻辑的延伸:其结果是算法与刚性机身难以适配。

究其原因,这是在用工程学的工具,去解决一个本质上属于生物进化与复杂系统的难题,近乎一种“降维打击”式的徒劳。
而真正关键的突破,恰恰在于跳出 “人形就得学人类” 的思维定式。因此,浙大、西湖大学等团队进行了一项新的研究——
没给机器人灌输任何 “该用哪块身体缓冲” 的人类经验,而是让它在仿真里摔了成千上万次后,自己摸索出了最适配的“摔倒方式”

传统的人形机器人摔倒保护,依赖“类人缓冲特性”(即模仿人类用膝盖、骨盆缓冲),或者按预设轨迹摆动作。但机器人“全身是铁”、高自由度,无法硬套人类逻辑。
为了让机器人 “按自己的身体条件” 找到更“优雅”的摔跤姿势,具体做了三件事:
防止“伪动作学习”的奖励函数
本文研究中设计的奖励函数十分复杂:
-
既包含对机器人头、躯干、骨盆等关键部位(装了昂贵传感器的)受力的惩罚;
-
也涵盖了过大关节冲击、过快动作变化以及越界姿态的约束;
从多个维度引导机器人探索安全的摔倒方式。

▲图2|不适合在现实机器人上使用的“错误保护动作”示例:这些是机器人在早期训练中出现的异常动作,例如用手臂生硬顶地等,看似能完成任务,但在真实硬件上极易造成关节受损,因此需要在训练中剔除
但在实验中,典型的 “AI 奖励欺骗(reward hacking)” 问题也会随之出现:
在部分奖励设置下,机器人会做出 “伸直手臂硬顶地面” 的行为 ——
从理论上看似乎符合 “减少关键部位损伤” 的奖励逻辑,但这种动作在现实场景中会直接导致手臂关节折断,本质是机器人为了最大化奖励而探索出的脱离实际的极端行为。
“三角结构” 分散冲击力
研究最具标志性的发现是:机器人会主动撑手,双臂构成一个稳定三角结构,保护头和躯干。
两条胳膊与上半身形成的稳定支撑体系(类似帐篷形态)——

▲图4|机器人自主学会的“手臂三角结构”:该图突出展示了机器人在训练中形成的关键保护姿势——双臂撑地构成稳定三角形,用来缓冲冲击力,并保护头部与躯干不直接撞击地面
-
展开双腿降低重心
通过腿部的伸展,让身体的重心(CoM)更贴近地面,进一步降低冲击力的波动。
这就像搭帐篷时,不仅要搭好支架,还要固定好底部,避免被风吹倒。
-
控制骨盆角度避免硬碰地面
机器人会通过调整腰部俯仰 / 翻滚角度,控制骨盆的姿态 —— 让骨盆以 “倾斜角度” 贴近地面,或通过躯干的轻微扭转,让骨盆的受力点转移到非关键区域。
-
分散冲击力到多个刚体,而不是单点承受:
如果机器人像传统方法那样 “直臂顶地”(前文提到的 “reward hacking 错误行为”),冲击力会集中在手腕、肘部两个关节;
而三角结构能把冲击力拆分成三条受力路径:手腕→肘部→肩膀→躯干

▲图1|人类与机器人在摔倒瞬间的“保护动作”对比:左侧展示人类下意识的护身动作;右侧两幅图为类人机器人向前与向后摔倒时的自保护姿态。红色线条强调了机器人在学习中自动形成的“手臂三角结构”,用于分散冲击力、保护头部与躯干
特别要说明的是,这个姿态是机器人 “自主发现” 的,而非人类编程设定。
从行为分析来看:它不是简单“模仿人类摔倒姿势”,而是在数千次仿真摔倒训练中,它淘汰了 “直臂硬顶地面”“单臂支撑” 等容易断裂的动作,最终锁定了三角结构 ——
因为这是最契合其刚性金属机身的受力形态。
多阶段学习,让机器人摔得“越来越难”
随着训练进度的提升,也就是机器人摔倒次数的提升,逐步提升机器人摔倒的样式:
-
初始姿态更随机
现实中机器人不会等 “摆好姿势” 再摔倒 —— 可能是走路时步幅没调整好、可能是弯腰捡东西时重心偏移、可能是被撞时正处于转身状态。
因此训练设置也绝非让机器人永远从 “标准站姿” 开始摔倒,而是让初始姿态的随机性持续拉满:基础姿态随机(机器人的 29 个自由度初始位置)、关键部位额外随机、初始速度随机等。
-
推力更大、方向更不确定
为了应对机器人遇到 “斜着推”“推头部”“力度更大” 等情况就完全失控的问题,设计了“推力三随机”:
推力大小逐步加码、推力方向 360 度全方位、作用部位随机切换。

-
随机关闭部分关节
模拟现实中机器人 “带伤失衡” 的极端场景:
故障关节随机选、故障时机随机、不限制摔倒轨迹,这一点对 sim2real 迁移至关重要,让机器人学会 “带着故障保安全”,即使现实中遇到硬件问题,也不会完全失控。

▲图3|训练环境的多样化设计(让机器人面对不同摔倒场景):为了让策略更可靠,训练环境会不断“加难度”:随机改变推力大小与方向、改变初始姿态、甚至模拟部分关节失效,让机器人在各类意外情境中都能学会自我保护

仿真环境
实验数据集包括不同方向的推力、不同速度的行走状态,以及多种关节损坏情形。
对比三种基线(无控制、默认姿态控制、未特训策略),RL 学到的“自保护三角形”在三个核心指标上都表现最佳:
-
碰撞力(Contact Force)显著下降,关键部位冲击被有效分散;
-
运动动能(Motion Energy)降低,减少摔倒后的滚动与二次碰撞;
-
关节冲击(Actuation Impulse)整体更可控,说明三角支撑并未带来过高的手臂损伤。

▲图5|机器人在四种典型方向摔倒时的动作表现:从上到下依次为向前、向后、向左、向右摔倒的过程。可以看到机器人会主动调整手臂和腿部姿态,为身体创造最稳妥的落地方式
真机测试
该策略成功迁移到真实 Unitree G1:机器人在被人类推倒的瞬间,会自然撑出三角结构,保护头胸等关键部位,呈现出与模拟一致的稳定行为。

▲图6|真实机器人测试:摔倒瞬间撑出三角结构:在真实环境中,当机器人被推倒时,它会迅速撑开手臂形成三角支撑,成功减少摔倒冲击。这一动作与模拟训练结果保持一致,说明策略成功迁移到真实硬件

虽然这项工作展示的结果很亮眼,但它更像是一次对现实问题的“清醒提醒”。
人形机器人如何控制摔倒,看似在模拟中找到了答案,但本质上仍然脆弱,测试过程中我们看到的全是在平坦地面上做的 ——
不管是站着、走路,机器人倒地的环境都是光滑平面。
一个核心质疑随之而来:一旦地面不平,机器人还能不能顺利摆出 “三角结构”?
地面的微小起伏、摩擦系数的突变,都可能让精妙的算法链条瞬间崩溃。
说到底,这项工作的核心价值,从来不是发明了一个 “100分的保命动作”,而是跳出行业的思维定式:从复刻人类,转向适配自身特性的自主探索……
这也恰恰揭示了行业的一个根本悖论:当我们执着于赋予机器“人形”这一蓝图,却无法赋予其人类的“神”(生物本能与适应力)时,最终导致我们不得不用庞大的智力与算力,去为这个“美丽的错误”编织一副昂贵的“拐杖”。
——比如,“教会”它如何摔倒……
Ref:
论文题目:Discovering Self-Protective Falling Policy for Humanoid Robot via Deep
Reinforcement Learning
论文作者:Diyuan Shi, Shangke Lyu and Donglin Wang
论文链接:https://arxiv.org/pdf/2512.01336v1
图片素材来源于网络
1843

被折叠的 条评论
为什么被折叠?



