27、从仿真到现实：控制策略的迁移研究

最新推荐文章于 2025-09-25 03:31:43 发布

day7

最新推荐文章于 2025-09-25 03:31:43 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：机器人前沿：从理论到实践文章标签：仿真到现实控制策略迁移监督域适应

本文链接：https://blog.youkuaiyun.com/day7/article/details/152023922

机器人前沿：从理论到实践专栏收录该内容

83 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

从仿真到现实：控制策略的迁移研究

1. 技术方法

1.1 控制器网络架构

我们学习了一个从像素到扭矩的控制器，它以深度图像作为输入，输出操纵器的位移。该控制器基于之前提出的一种方法，通过神经网络估计相对于目标状态的距离函数。给定一张图像和一个候选操纵器位移，距离函数会预测下一步的预期目标距离。我们通过对一组候选位移进行采样，并选择预测能最接近目标的位移。本质上，这种方法学习了一个关于观测和动作（深度图像和操纵器位移）的价值函数。与强化学习不同，我们使用监督学习直接训练神经网络，利用模拟器生成的距离目标作为监督信息。具体操作步骤如下：
1. 从可能的任务场景和初始条件空间中进行采样，创建数据集。
2. 对于每个样本，模拟可能观察到的深度图像。
3. 计算执行相关位移后的目标距离。

1.2 监督域适应

基于以下损失函数（与之前提出的类似）进行域迁移：
[
L = \alpha \sum_{(I,a) \in X_S} | g(f(I, a; \theta_f), \theta_g) - y(I, a) | 1 + \beta \sum {(I,a) \in X_T} | g(f(I, a; \theta_f), \theta_g) - y(I, a) | 1 + \gamma \sum {(I_S,I_T,a) \in X_{ST}} | f(I_S, a; \theta_f) - f(I_T, a; \theta_f) | 2
]
这里，神经网络由两个函数 (f) 和 (g) 组成。(f) 表示网络的“早期”部分，由卷积层组成，用于