从仿真到现实:控制策略的迁移研究
1. 技术方法
1.1 控制器网络架构
我们学习了一个从像素到扭矩的控制器,它以深度图像作为输入,输出操纵器的位移。该控制器基于之前提出的一种方法,通过神经网络估计相对于目标状态的距离函数。给定一张图像和一个候选操纵器位移,距离函数会预测下一步的预期目标距离。我们通过对一组候选位移进行采样,并选择预测能最接近目标的位移。本质上,这种方法学习了一个关于观测和动作(深度图像和操纵器位移)的价值函数。与强化学习不同,我们使用监督学习直接训练神经网络,利用模拟器生成的距离目标作为监督信息。具体操作步骤如下:
1. 从可能的任务场景和初始条件空间中进行采样,创建数据集。
2. 对于每个样本,模拟可能观察到的深度图像。
3. 计算执行相关位移后的目标距离。
1.2 监督域适应
基于以下损失函数(与之前提出的类似)进行域迁移:
[
L = \alpha \sum_{(I,a) \in X_S} | g(f(I, a; \theta_f), \theta_g) - y(I, a) | 1 + \beta \sum {(I,a) \in X_T} | g(f(I, a; \theta_f), \theta_g) - y(I, a) | 1 + \gamma \sum {(I_S,I_T,a) \in X_{ST}} | f(I_S, a; \theta_f) - f(I_T, a; \theta_f) | 2
]
这里,神经网络由两个函数 (f) 和 (g) 组成。(f) 表示网络的“早期”部分,由卷积层组成,用于
超级会员免费看
订阅专栏 解锁全文
834

被折叠的 条评论
为什么被折叠?



