机器人技术与智能系统的工程化与应用第七章动作重定向与跨主体映射技术，第八章触觉传感与接触推理

动作重定向（retargeting）与跨主体映射（cross-subject mapping）解决不同主体之间动作迁移的问题。该章从动作表示的选择与标准化出发，给出轨迹参数化、笛卡尔与关节表示的比较，以及语义动作模板的形式化定义与复用接口的构造。所有推导以动力学与几何学基础为出发点，严格展开数学推理，体现教材级别的严密性与可复现性。

7.1 动作表示的选择与标准化

动作表示决定了后续重定向算法的可行性、保真性与数值稳定性。常见表示包括笛卡尔空间（端效器或关节位姿）、关节角（骨架参数化）、以及混合或语义化的高阶表示（关键帧、基函数系数、参数化动作模板等）。表示应满足以下工程与理论要求：表示完备性（能表达目标动作）、可微性（便于优化）、不变性或可规范化（便于跨主体对齐）、以及数值紧致性（利于近似与压缩）。以下分别从轨迹参数化与坐标系选择的角度给出推导与比较。

7.1.1 轨迹参数化、笛卡尔/关节表示比较

综上，轨迹参数化提供了连续、可微且易正则化的表示形式；笛卡尔表示便于任务空间约束直接表达，关节表示便于表达个体化约束与动力学限制。工程实践中通常采用混合策略：在任务关键部位使用笛卡尔基函数展开以保证任务精度，在次要 DOF 使用关节基函数或正则化以保持自然性与约束满足。

7.1.2 语义动作模板与复用接口

语义动作模板（semantic action template）將动作抽象为带参数的可重用结构，用以支持跨主体复用与参数化生成。形式化定义如下。

语义对齐的形式化

参数化映射的最小二乘与约束优化

语义约束的保留与可行性证明

复用接口的模块化设计

小结

动作重定向与跨主体映射的理论核心在于：合理选择轨迹参数化并在表示上平衡任务空间控制与关节空间约束；用基函数系数或参数化模板实现时序与空间的压缩表达；通过 Procrustes 对齐、李群插值（SE(3) 插值与 quaternion slerp）、以及雅可比线性化与带正则化的逆运动学优化来实现语义模板的安全映射。上述各步的数学推导从基函数正规方程、线性化最小二乘、Procrustes 分解、到带时域正则的二次优化均给出明确的解析与数值解法，并指出了数值稳定性条件与收敛性保证。模板化的语义接口将这些理论组件模块化，便于在工程中实现可审计、可复用且能满足物理与语义约束的动作迁移系统。本章内容既提供了算法原理的完整推导，也给出可直接用于教材的证明链与实施要点。

7.2 逆向动力学与物理合理性修正

逆向动力学（Inverse Dynamics）旨在由给定的运动轨迹计算机器人执行该运动所需的广义力矩，是动作重定向与跨主体映射中确保生成动作物理可实现的重要环节。对于一般刚性连杆系统，逆向动力学求解通常来自拉格朗日动力学或牛顿–欧拉递推，其结果构成动力学方程的逆向解算。为保证在噪声、欠定条件或跨平台映射中仍保持物理一致性，逆向动力学需要正则化策略，同时需结合接触建模、摩擦与约束一致性校正使结果符合实际环境。

7.2.1 逆向动力学估计方法与正则化技巧

拉格朗日推导

正则化逆向解算

7.2.2 接触建模、摩擦与约束一致性校正

接触力求解

摩擦与约束校正

本节通过对逆向动力学方程进行严格推导，建立了动力学反求与正则化求解机制，随后扩展至接触建模与摩擦一致性修正，形成跨平台动作映射与执行的重要力学基础。这样，动作在虚拟到物理平台的迁移过程中得以确保安全、稳定与可执行性。

7.3 从示范到策略的工程步骤

从示范数据到可执行策略的工程流程包含示范的数据净化与结构化、行为模式的发现与技能分解，以及基于示范的强化学习（或混合离线学习）以获得鲁棒策略。该节以数学与算法为主线，系统推导示范过滤、行为聚类与技能分解的方法论，并给出示范强化与离线策略学习耦合的混合流程的理论基础与收敛性讨论。所有推导按步骤展开，旨在成为教材中算法原理与工程实现的直接内容。

7.3.1 示范过滤、行为聚类与技能分解

(一) 示范过滤的形式化与稳健估计

该流程通过概率建模与 EM 算法获得软判别，能在理论上控制第一类错误率与第二类错误率的权衡，并为下游聚类提供高质量输入。

(二) 行为相似性度量与特征化

(三) 行为聚类：谱聚类的推导与性质

谱聚类的步骤可写成伪代码：

输入：轨迹集合 {τ^i}, 簇数 k, kernel width σ
1. 计算对齐距离 d(τ^i,τ^j)（使用 DTW 或时间归一化）
2. 构造相似度矩阵 W_{ij}=exp(-d^2/σ^2)
3. 计算度矩阵 D, 拉普拉斯 L=D-W
4. 求解广义特征 L u = λ D u，取最小 k 个特征向量构成 U
5. 对 U 的行做 k-means，输出簇分配

谱聚类的理论保证包括：在图满足簇结构假设与相似度参数适宜时，离散簇与连续松弛解接近；若相似度矩阵受噪声扰动，特征向量的扰动由矩阵扰动理论（Davis–Kahan 定理）控制，从而说明聚类稳定性。

(四) 技能分解（Skill / Option 的数学化）

在最大似然或逆强化学习的框架下，可通过 EM 式的交替估计高层与低层策略参数；EM 的单调性保证对数似然逐步上升并以局部极值收敛。

(五) 技能发现的可证性：互信息与可分性准则

7.3.2 示范强化与离线策略学习的混合流程

基于前述技能分解与清洗后的示范，目标为将示范数据转化为可部署策略。工程实践中常采用混合流程：以行为克隆（BC）初始化策略，再通过离线强化学习（Offline RL）或基于示范的离线策略优化增加鲁棒性，最后在模拟或实际环境中做微调。以下给出混合流程的数学形式化、优化目标与收敛性讨论。

(一) 问题表述与目标函数

(二) 基于加权行为克隆与优势加权式离线优化

(三) 值函数保守化与理论边界（CQL 风格论证）

(四) 层次化混合流程：技能-高层耦合策略学习

(五) 离线到在线的小样本自适应（微调）与安全性约束

本章小结

本章将示范到策略的工程步骤系统化为：示范过滤（混合模型 EM 给出软判别与置信度）、行为聚类（DTW 对齐 + 谱聚类获得簇与原型）、技能分解（选项框架下的克隆式技能估计与终止函数学习）以及混合离线策略学习（BC 初始化 + 保守离线 RL 微调 + 层次交替优化）。理论推导涵盖了 DTW 的最优性、谱聚类的松弛与特征嵌入理论、EM 的单调性证明、互信息最大化的变分下界推导、以及离线 RL 中优势加权与 Q 保守化的目标分解。工程上应关照的数据与交付清单包括：清洗后示范集、轨迹相似度矩阵、聚类标签与技能候选、低层技能策略与终止器参数、高层策略及其价值估计、以及离线训练时的保守正则系数与验证曲线。依据理论推导选择参数、采用稀疏数值方法与保守正则，可在实践中获得稳定、可审计且在真实环境下可安全微调的策略。

第八章触觉传感与接触推理

8.1 传感器种类、接口与标定方法

触觉传感作为机器人感知物理接触的核心，其工程化设计必须同时满足物理量测精度、时域响应与系统可耦合性三方面约束。传感器的类型决定了测量机理与噪声结构，接口与采样策略决定了时间一致性与带宽上界，标定方法决定了测量值到物理量（力、压力、接触点、剪切）的映射精度。以下对常用触觉传感器的物理模型、噪声与失真来源、适用场景及其系统级标定法作严格推导与说明；随后在第 8.1.2 节对触觉数据的同步、采样与滤波策略给出数学推导与工程实现准则。

8.1.1 电容、压阻、光纤与柔性阵列的应用场景

标定方法的数学基础与步骤

标定流程的工程步骤为：确定试验台架与加载装置；按设计矩阵收集足够丰富的刺激（保证持久激励，persistence of excitation，以确保参数可辨识）；选择模型类并估计参数；评估残差统计（白噪声假设检验、残差自相关）；若残差显示系统动态或非线性，改用动态模型；最后交叉验证并生成校正表格或参数以供运行时在线补偿使用。

8.1.2 触觉传感的同步、采样与滤波策略

触觉数据的有效利用依赖于采样理论、抗混叠设计与时序对齐方法。触觉信号通常包含低频静态压力分量与高频接触冲击、滑动摩擦成分，设计采样与滤波策略需在保真与降噪之间权衡。以下从采样定理出发证明采样频率选择原则，给出抗混叠滤波器设计与数字滤波器的时延/相位考量，并导出多传感器时间对齐与数据融合的数学方法。

采样定理与混叠证明

抗混叠滤波器设计与相位考虑

离散滤波方法：FIR 与 IIR 的选择

估计与滤波：卡尔曼滤波与互补滤波

多传感器时间对齐与抖动补偿

滤波与实时性的权衡

设计滤波器时必须权衡延迟（群延迟）、计算复杂度与实时性。实时控制回路中允许的延迟受控制系统稳定性约束，通常需要总感知延迟低于若干毫秒。实践中采用双路径策略：在线使用低阶、低延迟滤波器保障控制稳定性；离线或后台处理使用高阶滤波器与反卷积重建更高保真触觉图像。对阵列图像的去模糊（反卷积）问题应采用正则化方法以免噪声放大。

本节以物理机理为出发点建立了传感器建模框架，并给出标定与辨识的数学方法：静态最小二乘及 Tikhonov 正则、空间配准的 Procrustes 解、传感器时域响应的系统辨识以及滞后建模的历史依赖模型。对触觉数据的采样与滤波作了从采样定理到抗混叠滤波器阶数估计、线性相位考虑、卡尔曼与互补滤波证明与多传感器时间对齐方法的系统推导。这些理论与方法为工程实施提供可验证的设计准则：根据任务带宽确定采样率、先用模拟或数字抗混叠滤波器带限、用稳健回归与正则化完成标定、并在运行时用卡尔曼滤波器或互补滤波器融合多模态触觉观测以获得稳健的接触推断与控制输入。

8.2 触觉数据的表示与学习方法

触觉信号是物体交互过程中最直接的力学量测形式，能够对局部接触状态、材料属性与微观几何结构进行有效表征。其主要特点包括：
(1) 显著的时序相关性；
(2) 局部空间结构性；
(3) 强噪声与弱结构信息特点；
(4) 强烈依赖交互过程；
(5) 与视觉在信息表达上互补。
因此，针对触觉数据，需要建立统一的时空编码框架、降维与压缩机制、事件驱动建模方法及其与视觉融合的学习体系。

8.2.1 时空表征、事件驱动编码与压缩方法

一、触觉信号的时空连续张量表示

命题 8.2.1

二、事件驱动触觉编码形式

三、触觉数据的低秩压缩与稀疏建模

四、基于图结构的触觉建模

8.2.2 触觉—视觉融合的架构模板

触觉信息对视觉的典型补充在于：
(1) 检测遮挡区域接触信息；
(2) 获取几何不可见信息如材质与摩擦系数；
(3) 区分视觉相似但力学不同对象；
(4) 提高动作规划的稳定性。

因此，触觉—视觉融合的核心是构建统一隐空间，使力学与几何信息协同。

一、共享隐空间模型

二、跨模态自注意力融合

三、功能一致性约束

四、结构先验的注入

五、典型工程实现流程

视觉编码器提取几何与纹理信息；
触觉编码器提取局部力学结构；
跨模态对齐模块建立共享特征；
触觉约束校正视觉不确定与遮挡区域；
视觉信息补充触觉的空间结构；
联合目标驱动策略学习与物体理解。

8.3 接触策略与力控模式

接触任务的控制目标既包括轨迹/位姿跟踪，又包含力/力矩的精确调节。力—位置混合控制（hybrid force/position control）与阻抗/导纳控制（impedance/admittance control）构成接触策略的核心工具。针对接触的不确定性与可能的扰动，需要在控制律设计、稳定性证明、接触检测与微动作探索以及容错与恢复策略上给出严密的理论与工程实现方法。本节首先系统推导力—位置混合控制与阻抗匹配的理论基础与稳定性条件，随后推导接触探索、微动作设计与容错拆分的数学准则与算法框架。

8.3.1 力—位置混合控制与阻抗匹配

1. 机器人动力学与任务空间表述

考虑一般刚体机械臂，其关节空间动力学为

2. 力—位置混合控制的分解与实现

3. 阻抗控制的定义与物理解释

4. 阻抗控制的能量与无功耗（passivity）分析（稳定性证明）

为证明阻抗控制的稳定性与安全性，采用能量函数（储能函数）方法。

定义误差：

5. 阻抗匹配与控制器参数选择

阻抗匹配的目标是在接触过程中使机器人与环境共同的合成动力学满足预期性能并避免震荡或发散。若环境被建模为弹簧—阻尼元件

该参数化便于与环境参数匹配并直观调节动态响应。

6. 导纳控制与阻抗—导纳的互补实现

导纳控制（admittance control）通过测量力来计算期望的位移或速度命令，其连续形式为

7. 鲁棒/自适应阻抗与扰动估计

小结（8.3.1）

力—位置混合控制、阻抗与导纳控制提供了在接触任务中在位置与力之间进行权衡的系统性方法。通过任务空间动力学投影、能量与被动性分析、环境—控制器参数的匹配（阻抗匹配）与扰动观测器/自适应方法，可以在理论上证明闭环的稳定性与鲁棒性。工程实践要点包括子空间选择、增益的自然频率—阻尼比参数化、雅可比奇异性处理以及力测量滤波与 DOB 设计的带宽权衡。

8.3.2 接触探索、微动作策略与容错拆分

接触任务往往需要在未知环境中搜索接触、辨识环境参数并在受扰动时实现安全恢复。为此提出系统的接触探索与容错策略：包括微动作（micro-motion）设计用于高概率发现接触、检测与统计判决用于可靠判断接触发生、以及任务分层与容错拆分用于恢复与安全停止。以下按理论推导与算法步骤展开。

1. 接触检测的统计判决与最优阈值

2. 微动作（Micro-motion）策略设计与频谱优化

工程常用策略包括：

线性扫描（小幅位移直线移动并持续施力）；
圆弧/正弦微振动以产生周期接触并便于频域滤波提取信号；
增量推进（微步增加压入深度以避免大冲击）。

3. 接触参数辨识（刚度、摩擦）的方法

估计结果用于自适应阻抗增益调度或力饱和设定。

4. 容错拆分：任务分层、模式集与恢复控制

在接触故障或异常（过大冲击、滑脱、力超限）发生时，需要将策略拆分为若干模式并定义相应的切换/恢复律。构造三层控制结构为常用模式：

正常执行模式（Nominal）：执行任务轨迹或技能，使用阻抗/混合控制；监测接触与力异常指标。
探索/微动作模式（Explore）：用于搜索接触或在接触不确定时以微动作辨识环境。
恢复/安全模式（Recovery）：在检测到异常（力超限、失稳或接触不可行）时，停止推进，撤退并执行安全停靠或重新规划。

切换律设计可采用形式化的阈值与宾语（guards）并结合多 Lyapunov 函数与**最小驻留时间（dwell-time）**理论以保证切换稳定性。

5. 容错恢复策略的构造

恢复策略应包含以下步骤：检测→安全撤退→状态重置/重定位→重新规划/查询策略库。伪代码如下：

procedure recovery_procedure():
  if force > f_safe:
    execute retreat_motion()  # 以降功率、受控速度退离接触
    set mode := Recovery
    perform local perception_update()
    if recovery_possible():
      compute new approach trajectory
      switch to Explore or Nominal
    else:
      execute safe_shutdown()

退避轨迹设计应保证在退避过程中不会再次发生冲击，通常采用低刚度、高阻尼的阻抗参数化，并限制最大速度与加速度。

6. 安全性边界与控制屏障函数（CBF）

7. 学习型探索策略与安全约束

小结

接触探索与微动作策略的设计应在能量、安全与信息获取之间进行折衷：微动作需在最小风险下尽可能提升接触信息量；接触检测需采用统计判决或卡尔曼创新检验以获得可靠性；容错拆分以模式化的切换与驻留时间保证稳定性，恢复策略应以受控撤离、参数估计与安全重试为核心；学习型方法需嵌入实时安全投影保证可验证的部署安全。理论工具包括假设检验、频谱分析、递推辨识、切换系统的多 Lyapunov 理论以及控制屏障函数—这些工具结合阻抗/导纳框架共同构成健壮的接触策略库。

本章对接触控制的核心问题从动力学表述、混合控制结构、阻抗匹配的能量稳定性证明、到接触检测、微动作设计、参数辨识与容错恢复给出严密的理论推导与工程实现框架。这些推导与算法直接服务于基于触觉感知的机器人接触行为设计，既可用于教材理论章节，也可为工程实现提供明确的数学与算法依据。