27、从仿真到现实:控制策略的迁移研究

从仿真到现实:控制策略的迁移研究

1. 技术方法
1.1 控制器网络架构

我们学习了一个从像素到扭矩的控制器,它以深度图像作为输入,输出操纵器的位移。该控制器基于之前提出的一种方法,通过神经网络估计相对于目标状态的距离函数。给定一张图像和一个候选操纵器位移,距离函数会预测下一步的预期目标距离。我们通过对一组候选位移进行采样,并选择预测能最接近目标的位移。本质上,这种方法学习了一个关于观测和动作(深度图像和操纵器位移)的价值函数。与强化学习不同,我们使用监督学习直接训练神经网络,利用模拟器生成的距离目标作为监督信息。具体操作步骤如下:
1. 从可能的任务场景和初始条件空间中进行采样,创建数据集。
2. 对于每个样本,模拟可能观察到的深度图像。
3. 计算执行相关位移后的目标距离。

1.2 监督域适应

基于以下损失函数(与之前提出的类似)进行域迁移:
[
L = \alpha \sum_{(I,a) \in X_S} | g(f(I, a; \theta_f), \theta_g) - y(I, a) | 1 + \beta \sum {(I,a) \in X_T} | g(f(I, a; \theta_f), \theta_g) - y(I, a) | 1 + \gamma \sum {(I_S,I_T,a) \in X_{ST}} | f(I_S, a; \theta_f) - f(I_T, a; \theta_f) | 2
]
这里,神经网络由两个函数 (f) 和 (g) 组成。(f) 表示网络的“早期”部分,由卷积层组成,用于

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值