21、快速自适应自动化车辆与视觉惯性导航优化方法

快速自适应自动化车辆与视觉惯性导航优化方法

快速自适应自动化车辆

在基于上下文的元强化学习(Meta RL)中,潜在上下文空间的构建十分关键。然而,以往基于上下文的Meta RL方法没有对潜在上下文进行特殊正则化,导致潜在上下文空间复杂且难以理解。在这样无序的潜在上下文空间上进行插值存在重大缺陷,比如无法控制生成任务的分布,插值后的潜在上下文空间与任务域没有合理映射,或者过于集中在任务域的小范围内。

为了解决这些问题,研究采用了β - VAE技术对潜在上下文进行解纠缠,以生成高效且易于操作的想象任务。解纠缠表示定义了一个潜在上下文,其中某个维度对单个生成因子的变化敏感,而对其他生成因子的变化相对不变。生成因子是影响环境转移函数、奖励函数等的隐藏因素,潜在上下文则是学习到的编码器潜在空间中的向量,代表元策略对智能体所处环境的信念。选择β - VAE方法是因为其解纠缠性能、训练稳定性和实现复杂度方面的优势。

β - VAE的关键思想是在原始变分自编码器(VAE)目标中加入一个超参数β(通常β > 1),以调节对潜在信息瓶颈容量的学习约束。为了鼓励解纠缠,有研究建议对z的容量施加更强的约束。通过在训练任务编码器时利用β - VAE技术,可以学习到具有以下特性的潜在上下文空间:
1. 潜在上下文是解纠缠的;
2. 潜在上下文空间中一个活跃维度用于一个生成因子,而其他维度对任何生成因子保持不变且接近正态分布;
3. 潜在上下文提取最小充分信息,仅捕获与任务变体相关的所有信息。

在经过β - VAE风格的编码器训练后,解码器作为生成模型发挥作用以实现想象。想象通过采样一组想象的潜在上下文zI = {zI(0), …, zI(n)},并将

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值