康复机器人交互控制框架

原创于 2025-10-08 02:04:01 发布 · 363 阅读

CC 4.0 BY-SA版权

文章标签：

137 康复机器人

全引球言范围内受神经系统疾病影响的人数正在不断增加，这尤其与持续增长的老龄化人口有关。例如，在发达国家，通常每年有1/500的人会遭受中风。因此，在过去的三十年中，开发了专用机器人接口，旨在为神经系统受损的个体提供足够的身体训练，尽管卫生系统的人力和财力资源有限（图1）。重要的是，康复机器人与受训者之间的交互控制对运动功能恢复至关重要。例如，临床试验表明，被动训练并非有效的策略，成功的康复需要受训者积极参与运动任务执行[2,3]。

第5章描述了已在康复机器人上实施并在临床试验中测试的各种交互式控制策略[4,5]和在临床试验中进行了测试[2,3]。这些策略通常是临时开发的，尚未被证明能够实现稳定交互。此外，控制通常将用户的手部运动限制在一条直线触觉通道内，而重复运动中的变异性是伸手学习固有的特征[6,7], ，阻止这种变异性可能会损害学习效果[8]。

本章介绍了一种系统的交互控制框架来解决这些问题。为了开发合适的控制策略，我们首先列出促进高效的机器人辅助神经康复的特性：
1. 交互控制应该是安全的。
2. 它应该是平滑的，以免干扰受训者的自然运动。
3. 但是它应该能够强力拉动受训者的肢体，因为中风或脊髓损伤等神经系统疾病可能会由于痉挛或肌张力障碍而增加肢体阻力。
4. 此外，控制应引导但不约束肢体运动，以免干扰重复运动中的大变异性。
5. 它应能考虑受训者当前的运动并能够适当地响应该运动。
6. 最后，控制应适应受训者的运动能力，使其能够完成任务，同时受到挑战。

让我们简要评述这些期望的特性。为确保受训者与康复机器人之间的安全交互（特性1），可采取多种措施，包括机械和电子停止装置、扭矩/力、加速度和速度限制，以及为机器人用户及其护理人员配备电源断路器[9]。稳定平滑的控制也有助于安全性。然而，大多数现有控制模式在空间和时间上均限制肢体运动[4]。但人类在重复执行任务时，从不会采用完全相同的轨迹或肌肉激活模式，重复运动表现出较大的变异性[10]。不干扰自然的运动变异性（特性 4）可能有助于提高训练效果并向真实任务迁移。特别是，通过轨迹控制在时间上约束运动通常会让受训者感到困扰[11,12]并可能打乱他们的运动。此外，类似于人类物理治疗师，康复机器人应分析受训者的实际表现，并在运动过程中相应地调整其控制（特性5）。最后，许多研究者指出需要采用按需辅助控制，该控制方式针对每位受训者的感知运动能力，使其能够成功完成任务[4], ，从而激励训练并让他们完成指定的运动任务（特性6）。此外，当受训者运动技能提升时，重要的是相应地持续增加任务难度，使其保持在“挑战点”[13]。

为了设计具有这些特性的交互式控制框架，我们提出由机器人调节与受训者的物理交互，就像人类物理治疗师进行一对一训练一样（图1A）。为此，我们假设受训者和机器人或人类治疗师可以被建模为两个智能体，其任务和行为由二次成本函数[14]描述。通过开发

示意图0

一种通过最小化生成成本来引导用户运动的控制方式，机器人治疗师将在到达运动期间（属性2）平滑地引导用户朝向目标，而无需任何其他约束，例如使用特定路径或轨迹（属性4）。

如何调节交互？近期的神经科学研究表明，人体运动控制对应于努力与误差的最小化[15]。类似地，我们使用误差和努力的二次函数来计算机器人运动指令[14]。机器人控制强度（属性3）通过调整努力代价项，在按需辅助适应方案中逐次试验进行迭代适应，以提供刚好足够的辅助，使受训者能够成功完成任务（属性6）。控制强度的迭代适应基于人类用户控制，该控制可直接从运动中推断，或间接从偏差[15]或从连续试验中的运动平滑性[16]推断。

最后，利用控制理论工具确保稳定高效的交互。特别是，采用博弈论设计一种直接依赖于受训者运动的反应式控制（属性5）。

在本章中，我们专注于笛卡尔空间中的点对点手臂运动，这是上肢物理神经康复中最常用的方案。第“最优控制交互框架”节介绍了包含两个智能体的最优控制框架，用于描述康复机器人与受训者之间的交互，并进一步说明该框架对中风幸存者与HMan康复机器人交互时运动的影响（图1B）。随后，在 “基于博弈论的稳定、反应性和自适应交互控制”一节中提出了基于微分博弈论的反应式控制器扩展，最后讨论了本章所提出交互控制框架的应用范围。

最优控制交互框架

我们希望分析物理治疗师或机器人如何协助神经功能受损个体训练从起始位置到目标的手臂到达动作。设xh ≡ x分别表示人类学员和治疗师相对于目标的位置偏差。设v为人类/机器人治疗师在x处对受训者手臂施加的力，uh为受训者自身提供的力。这两个力共同驱动受训者手臂运动。

(1)

设置 v ≡ G + u，然后得到

(2)

其中，M、C 和 G 在神经康复期间通常训练的小幅度运动中几乎保持不变。

受训者和治疗师应根据哪些策略来控制手臂运动？[14]的框架可用于描述和实施通过根据交互代理的个体代价函数（Vh 和 V）生成两个智能体的运动指令（uh 和 u），实现多种交互式控制策略。在本节中，我们从该框架出发，描述与物理训练相关的交互式控制策略。

被动训练的主从交互

对于无法自主移动手臂的功能受损个体 uh ≡ 0，手臂运动的动力由治疗师施加的力 ť 提供u，形成一种主从关系，如[14]中所述。此外，我们可以假设治疗师的指令 ťu 对应于在[10,15]中观察到的误差与努力的并发最小化

(3)

其中Q 和 R 是适当的（分别为半正定和正定）权重矩阵，例如具有正数的对角矩阵。对应于方程(3) 解的线性二次型调节器（LQR）由此计算得到：

(4)

其中最后一项可识别为一个黎卡提方程[17]。注意，在式(3)的代价函数（3）中，Q 和 R 通常是对角矩阵，对应于点对点手臂运动中手部通常遵循的直线运动[18]。不同任务对应的曲线几何可通过不同的代价函数描述，例如通过逆向最优控制获得的代价函数[19]。

力 u 由人类治疗师或康复机器人提供，在后一种情况下，执行器的扭矩向量 τ可通过雅可比矩阵 J 计算（通过 x J q qo()定义，其中 q 表示关节向量）[20]：

(5)

该方案可应用于非冗余末端型康复机器人，例如 MIT‐Manus[21], Gentle [22],或 EMU[23]。也可推广至冗余机器人接口，包括固定在身体上且关节与解剖关节重合的手臂外骨骼，例如 CEA的ABLE[24]。在这种情况下，必须添加附加约束以求解 xJq= 中的 q[20], ，这会影响公式 (1)。其中一个条件是最小化关节速度平方：

(6)

其中 N 是一个正定权重矩阵。由于外骨骼关节空间 {q} 对应于受训者手臂的关节空间，因此可选择 N 的分量以实现治疗ť 的目标，例如将训练集中在特定关节[25]。

物理康复中的教育型交互 N

与物理康复特别相关的是教育关系的[14]。与上述主从关系相比，在教育关系中，运动由患者按照自己的意愿进行（患者自身是“主导者”），这通过代价函数体现出来

(7)

物理治疗师协助患者执行公式(3)中规定的任务，其中z ≡ zh是患者与目标之间的偏差。重要的是，在代价函数V（公式(3)）中，治疗师最小化自身的努力程度，从而保持患者在训练中的参与度，防止出现已知会限制运动功能恢复的被动行为[2,3]。这两个代价函数（公式7, 3），用于刻画教育关系[14], ，因此可用于描述受训者‐物理治疗师交互，其针对机器人和受训者的独立解如公式(4)所述。

与中风后个体的交互

上述在教育控制模式下的交互式控制器已在HMan上实现[1], ，HMan是一种用于平面手臂运动的专用机器人接口。该系统已在新加坡陈笃生医院针对慢性中风幸存者开展的临床试验中使用[26]。此处仅展示部分结果，以说明交互控制的效果。

该试验的伦理审批已由机构委员会批准，所有试验环节均由一名生物工程师和一名经过培训的职业治疗师监督。纳入试验的受试者均在实验前3个月至2年间发生中风，且处于运动功能恢复的慢性阶段。他们的肌力在医学研究委员会量表上的肩关节外展和肘关节屈曲评分为>3/5，Fugl‐Meyer上肢运动功能评估(FMA)评分为20–50分。

示意图1

C通过竞争挑战物理康复

另一种可能促进神经系统受损个体运动功能恢复的交互类型是竞争，其中机器人或人类治疗师通过设置冲突目标来挑战受训者。这种竞争性交互策略可通过代价函数表示，能够激励患者最大程度地参与物理任务。

(8)

V z Q z u R u h h T h h h T h h º + .

V z Q z u R u z Q z u R u V z Qz u Ru z Q z u R u h h T h h h T h T h p T h p T T h T p h h T p = + + + = + + + h

基于博弈论的稳定、反应性和自适应交互控制

上述实现依赖于如公式 (7) 或 (8) 中的代价函数，对应于每个智能体在不考虑同伴动作的情况下执行自身动作的情况。然而，人类治疗师在训练过程中可能会考虑患者的正在进行的运动，以做出适当的反应。事实上，最近关于人类之间物理交互的研究表明，个体会自动考虑同伴的运动以改善协同动作，同时建立对同伴控制的模型[27–29]。

类似地，我们最近使用微分博弈论[30]来创建一种反应式机器人行为，该行为能够考虑人类用户的控制行为并在线适应它。由于每个智能体的控制器都会影响同伴的表现，因此即使两个智能体具有相同的目标，它们也可能无法最小化各自的代价函数（公式 7, 3）。在博弈论中，这可以通过确定两个智能体行为之间的均衡来解决。这里，我们考虑的是纳什均衡，它表示两个智能体在考虑自身代价函数的同时，都对同伴做出了最优响应。

线性系统的微分博弈论[30]表明，机器人u和人类uh的控制输入以某种意义最小化代价函数（公式 7, 3）纳什均衡的解，当P 和 Ph 由以下耦合的黎卡提方程计算得出时：

(9)

其中 Ar 和 Ah 分别是机器人和人类的闭环系统矩阵。 R 和 Rh 在公式 (7),(3) 中被假定为单位矩阵，因此不出现在公式 (9) 中。在这些耦合方程中，求解 Ah （从而也包括 L）需要用于求解 Ph，同样地，求解 Ar （从而包括 Lh）需要用于求解 P。这说明了博弈论的工作机制：两个智能体根据同伴的控制器来更新自身的控制器，以最小化各自的代价函数。相比之下，在机器人公式 (4) 的 LQR 解以及人类学员的类似解中，最优增益是独立求解的，并未考虑同伴的影响。

由于机器人和人类的控制增益L和Lh彼此未知，因此有必要估计同伴的控制器。让我们说明如何实现这一点。假设机器人使用以下模型来观测系统状态：

(10)

其中Γ是一个正定矩阵，ˆz是z的估计值，Δz是状态估计误差，而ˆuh是未知的人类控制的估计值。确保适当的李雅普诺夫函数具有负梯度，从而得到以下更新律，该更新律可最小化Δz并产生稳定交互：

(11)

其中 •表示逐元素乘法，而 ∂∂P Qh h 通过求解得到

(12)

人类学员的控制增益估计值可表示为Lh= BT Ph，其中Ph按公式(11)更新得到。此外，基于对受训者控制增益的估计值Lh，机器人的控制器由公式u在公式(4)中给出，其中P由机器人的耦合黎卡提方程ť求解得到，如公式(9)所示。

当假设受训者使用类似于公式(10)−(12)的方法来估计机器人的控制器，并且受训者开发自己的控制器uh时，交互式博弈论控制框架即告完成。所提出的框架使机器人能够：(i) 在交互过程中估计受训者的控制器；(ii) 适应受训者，以确保实现某种期望的交互行为。

我们进行了仿真，以研究对同伴控制器的估计以及基于博弈论的控制器如何产生一种自适应控制策略，从而保证交互的稳定性以及成功到达。我们将博弈论控制器与未考虑同伴控制的LQR控制器进行了比较

机器人辅助到达任务中两种典型场景下的行为。我们模拟了在40秒总时间内，于−0.1和0.1米之间进行的10次前后reaching动作，质点机器人动力学参数设置为质量= 6 kg，式(10)中的观测器增益为Γ ≡ diag(10, 1)，式(11)中的学习率为α ≡ 104 ，人类参数设置为观测器增益Γh ≡ diag(10, 1)和学习率αh ≡ 104。

第一种情景通过为代价函数分配符号相反的值来模拟机器人与人类相互竞争的情况，Q= diag(200, 2) 和 Qh= −diag(180, 1.8)。需要注意的是，设置负定的 Qh会导致控制器使系统失稳，这在控制设计的角度来看是不寻常的，但却表达了机器人治疗师挑战其人类用户以促进学习的情境。图3A 展示了到达运动过程中的位置曲线：使用博弈论控制器成功完成了到达任务，

在LQR下则不稳定并失败。对于LQR控制器而言，由于机器人和人类均未考虑同伴的控制，双方都试图最小化各自的代价函数，整体系统行为则在两个个体目标之间进行权衡。这一点可以在图3B和C中观察到，其中机器人和人类的控制器增益大小相近但符号相反。图3B和C还说明了博弈论控制器为何能够实现控制目标：机器人生成更高的控制器增益以补偿人类的控制器。该仿真展示了估计同伴控制器的重要性，并体现了博弈论控制器的优势。

在第二种情景中，机器人和人类伙伴具有相同的代价函数，Q= Qh= diag(200, 2)，以参与相同的冗余任务。图4A 显示了到达运动过程中的位置曲线。无论是使用 LQR 还是博弈论控制器，到达任务均以较小的跟踪误差完成。图4B C 显示，通过不同的控制努力实现了到达：博弈论控制器相比 LQR 所需的控制努力相对较小。这是因为在使用博弈论控制器时，机器人和人类都认为伙伴对任务有所贡献，因此知道可以降低自身的努力程度。相比之下，使用 LQR 时，人类和机器人仅最小化各自的代价函数，而不考虑伙伴的行为，因此可能会付出过大的努力。

总之，这些仿真表明，在考虑双方交互过程中动力学特性的情况下，博弈论控制器提供了稳定性和最优性。

在结论章中，我们提出了一个用于康复机器人交互控制的一致框架。其核心思想是通过设计各自的代价函数来规定康复机器人及其人类用户的控制行为。利用该框架，可以分析、实现并测试不同类型的交互策略。具体而言，教育型交互控制在共享受训者任务设定的同时，通过最小化引导努力，仅提供完成到达任务所需的最低辅助；而竞争型交互控制则适用于具有足够良好控制能力的受训者，由于两个智能体存在冲突目标，可借此挑战受训者，使其保持训练参与度。一项针对中风幸存者的初步实验结果表明，该控制方法能够实现平滑交互，不会干扰运动，也不会限制试次间变异性，而这可能对学习过程具有重要意义。

此外，最近的研究揭示了当两个同伴在协作完成物理任务时，通过物理接触发生的感觉运动交换[28,29],依赖于在交互过程中自动获取的同伴控制模型。这种触觉通信对协同表现和学习的优势促使我们开发了一种博弈论版本的交互框架，使机器人能够根据受训者的表现在线调整引导控制策略并做出适当响应。该算法的一个关键部分是识别人类用户的控制，这是充分考虑其行为所必需的。仿真结果表明，这种基于博弈论的机器人控制即使在受训者出现灾难性动作的情况下也能提供稳定性，同时具备良好的响应性和对同伴控制动学的行为适应能力。

尽管这些结果对成功的物理交互具有重要意义，并有望改善康复效果，但该框架目前仅针对笛卡尔空间中的点对点手臂运动训练进行了表述。通过实验和逆向最优控制提取不同的代价函数，可将该框架扩展到对应不同任务的曲线几何情形。[19]此外，应将交互控制框架进一步扩展到其他任务，特别是连续性任务，例如跟踪，因为最优控制本身与这类任务具有内在兼容性。 [17]。

需要说明的是，尽管我们使用最优控制来开发这一运动辅助框架，但我们的目的并非使康复机器人或其人类用户的运动达到最优。事实上，对于神经康复而言，这种最优性并不一定是可取的，而且目前尚不清楚受训者的运动应追求何种最优性。相反，最优控制和微分博弈论被用来实现安全、平滑、反应迅速且可适应的交互，并作为实施不同交互行为（如教育或竞争）的工具。所提出的框架还可用于分析治疗师是否根据特定个体的受损感觉运动系统调整其控制，以及触觉通信的哪些方面有利于身体神经康复。