人形机器人“摔倒自由”的背后：一场对精确规划主义的沉默反叛……

原创于 2025-12-14 17:24:01 发布 · 236 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

「点击加入交流群」

我们造出了人形，却赋不了它“人样”的根基

——这次，机器人自己决定怎么倒下

人形机器人最深的焦虑是什么？

“摔倒焦虑”——这个行业心照不宣的痛点，无疑是核心挑战之一。

传统应对思路往往陷入一个根本性的思维定式：试图让刚性、结构迥异的机械躯体去模仿人类的生物缓冲机制。

这本质上只是“形似”逻辑的延伸：其结果是算法与刚性机身难以适配。

究其原因，这是在用工程学的工具，去解决一个本质上属于生物进化与复杂系统的难题，近乎一种“降维打击”式的徒劳。

而真正关键的突破，恰恰在于跳出 “人形就得学人类” 的思维定式。因此，浙大、西湖大学等团队进行了一项新的研究——

没给机器人灌输任何 “该用哪块身体缓冲” 的人类经验，而是让它在仿真里摔了成千上万次后，自己摸索出了最适配的“摔倒方式”

传统的人形机器人摔倒保护，依赖“类人缓冲特性”（即模仿人类用膝盖、骨盆缓冲），或者按预设轨迹摆动作。但机器人“全身是铁”、高自由度，无法硬套人类逻辑。

为了让机器人 “按自己的身体条件” 找到更“优雅”的摔跤姿势，具体做了三件事：

防止“伪动作学习”的奖励函数

本文研究中设计的奖励函数十分复杂：

既包含对机器人头、躯干、骨盆等关键部位（装了昂贵传感器的）受力的惩罚；
也涵盖了过大关节冲击、过快动作变化以及越界姿态的约束；

从多个维度引导机器人探索安全的摔倒方式。

▲图2｜不适合在现实机器人上使用的“错误保护动作”示例：这些是机器人在早期训练中出现的异常动作，例如用手臂生硬顶地等，看似能完成任务，但在真实硬件上极易造成关节受损，因此需要在训练中剔除

但在实验中，典型的 “AI 奖励欺骗（reward hacking）” 问题也会随之出现：

在部分奖励设置下，机器人会做出 “伸直手臂硬顶地面” 的行为 ——

从理论上看似乎符合 “减少关键部位损伤” 的奖励逻辑，但这种动作在现实场景中会直接导致手臂关节折断，本质是机器人为了最大化奖励而探索出的脱离实际的极端行为。

“三角结构” 分散冲击力

研究最具标志性的发现是：机器人会主动撑手，双臂构成一个稳定三角结构，保护头和躯干。

两条胳膊与上半身形成的稳定支撑体系（类似帐篷形态）——

▲图4｜机器人自主学会的“手臂三角结构”：该图突出展示了机器人在训练中形成的关键保护姿势——双臂撑地构成稳定三角形，用来缓冲冲击力，并保护头部与躯干不直接撞击地面

展开双腿降低重心

通过腿部的伸展，让身体的重心（CoM）更贴近地面，进一步降低冲击力的波动。

这就像搭帐篷时，不仅要搭好支架，还要固定好底部，避免被风吹倒。

控制骨盆角度避免硬碰地面

机器人会通过调整腰部俯仰 / 翻滚角度，控制骨盆的姿态 —— 让骨盆以 “倾斜角度” 贴近地面，或通过躯干的轻微扭转，让骨盆的受力点转移到非关键区域。

分散冲击力到多个刚体，而不是单点承受：

如果机器人像传统方法那样 “直臂顶地”（前文提到的 “reward hacking 错误行为”），冲击力会集中在手腕、肘部两个关节；

而三角结构能把冲击力拆分成三条受力路径：手腕→肘部→肩膀→躯干

▲图1｜人类与机器人在摔倒瞬间的“保护动作”对比：左侧展示人类下意识的护身动作；右侧两幅图为类人机器人向前与向后摔倒时的自保护姿态。红色线条强调了机器人在学习中自动形成的“手臂三角结构”，用于分散冲击力、保护头部与躯干

特别要说明的是，这个姿态是机器人 “自主发现” 的，而非人类编程设定。

从行为分析来看：它不是简单“模仿人类摔倒姿势”，而是在数千次仿真摔倒训练中，它淘汰了 “直臂硬顶地面”“单臂支撑” 等容易断裂的动作，最终锁定了三角结构 ——

因为这是最契合其刚性金属机身的受力形态。

多阶段学习，让机器人摔得“越来越难”

随着训练进度的提升，也就是机器人摔倒次数的提升，逐步提升机器人摔倒的样式：

初始姿态更随机

现实中机器人不会等 “摆好姿势” 再摔倒 —— 可能是走路时步幅没调整好、可能是弯腰捡东西时重心偏移、可能是被撞时正处于转身状态。

因此训练设置也绝非让机器人永远从 “标准站姿” 开始摔倒，而是让初始姿态的随机性持续拉满：基础姿态随机（机器人的 29 个自由度初始位置）、关键部位额外随机、初始速度随机等。

推力更大、方向更不确定

为了应对机器人遇到 “斜着推”“推头部”“力度更大” 等情况就完全失控的问题，设计了“推力三随机”：

推力大小逐步加码、推力方向 360 度全方位、作用部位随机切换。

随机关闭部分关节

模拟现实中机器人 “带伤失衡” 的极端场景：

故障关节随机选、故障时机随机、不限制摔倒轨迹，这一点对 sim2real 迁移至关重要，让机器人学会 “带着故障保安全”，即使现实中遇到硬件问题，也不会完全失控。

▲图3｜训练环境的多样化设计（让机器人面对不同摔倒场景）：为了让策略更可靠，训练环境会不断“加难度”：随机改变推力大小与方向、改变初始姿态、甚至模拟部分关节失效，让机器人在各类意外情境中都能学会自我保护

仿真环境

实验数据集包括不同方向的推力、不同速度的行走状态，以及多种关节损坏情形。

对比三种基线（无控制、默认姿态控制、未特训策略），RL 学到的“自保护三角形”在三个核心指标上都表现最佳：

碰撞力（Contact Force）显著下降，关键部位冲击被有效分散；
运动动能（Motion Energy）降低，减少摔倒后的滚动与二次碰撞；
关节冲击（Actuation Impulse）整体更可控，说明三角支撑并未带来过高的手臂损伤。

▲图5｜机器人在四种典型方向摔倒时的动作表现：从上到下依次为向前、向后、向左、向右摔倒的过程。可以看到机器人会主动调整手臂和腿部姿态，为身体创造最稳妥的落地方式

真机测试

该策略成功迁移到真实 Unitree G1：机器人在被人类推倒的瞬间，会自然撑出三角结构，保护头胸等关键部位，呈现出与模拟一致的稳定行为。

▲图6｜真实机器人测试：摔倒瞬间撑出三角结构：在真实环境中，当机器人被推倒时，它会迅速撑开手臂形成三角支撑，成功减少摔倒冲击。这一动作与模拟训练结果保持一致，说明策略成功迁移到真实硬件

虽然这项工作展示的结果很亮眼，但它更像是一次对现实问题的“清醒提醒”。

人形机器人如何控制摔倒，看似在模拟中找到了答案，但本质上仍然脆弱，测试过程中我们看到的全是在平坦地面上做的 ——

不管是站着、走路，机器人倒地的环境都是光滑平面。

一个核心质疑随之而来：一旦地面不平，机器人还能不能顺利摆出 “三角结构”？

地面的微小起伏、摩擦系数的突变，都可能让精妙的算法链条瞬间崩溃。

说到底，这项工作的核心价值，从来不是发明了一个 “100分的保命动作”，而是跳出行业的思维定式：从复刻人类，转向适配自身特性的自主探索……

这也恰恰揭示了行业的一个根本悖论：当我们执着于赋予机器“人形”这一蓝图，却无法赋予其人类的“神”（生物本能与适应力）时，最终导致我们不得不用庞大的智力与算力，去为这个“美丽的错误”编织一副昂贵的“拐杖”。

——比如，“教会”它如何摔倒……

Ref：

论文题目：Discovering Self-Protective Falling Policy for Humanoid Robot via Deep

Reinforcement Learning

论文作者：Diyuan Shi, Shangke Lyu and Donglin Wang

论文链接：https://arxiv.org/pdf/2512.01336v1

图片素材来源于网络

「点击加入交流群」

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。