快速自适应自动化车辆与视觉惯性导航优化方法
快速自适应自动化车辆
在基于上下文的元强化学习(Meta RL)中,潜在上下文空间的构建十分关键。然而,以往基于上下文的Meta RL方法没有对潜在上下文进行特殊正则化,导致潜在上下文空间复杂且难以理解。在这样无序的潜在上下文空间上进行插值存在重大缺陷,比如无法控制生成任务的分布,插值后的潜在上下文空间与任务域没有合理映射,或者过于集中在任务域的小范围内。
为了解决这些问题,研究采用了β - VAE技术对潜在上下文进行解纠缠,以生成高效且易于操作的想象任务。解纠缠表示定义了一个潜在上下文,其中某个维度对单个生成因子的变化敏感,而对其他生成因子的变化相对不变。生成因子是影响环境转移函数、奖励函数等的隐藏因素,潜在上下文则是学习到的编码器潜在空间中的向量,代表元策略对智能体所处环境的信念。选择β - VAE方法是因为其解纠缠性能、训练稳定性和实现复杂度方面的优势。
β - VAE的关键思想是在原始变分自编码器(VAE)目标中加入一个超参数β(通常β > 1),以调节对潜在信息瓶颈容量的学习约束。为了鼓励解纠缠,有研究建议对z的容量施加更强的约束。通过在训练任务编码器时利用β - VAE技术,可以学习到具有以下特性的潜在上下文空间:
1. 潜在上下文是解纠缠的;
2. 潜在上下文空间中一个活跃维度用于一个生成因子,而其他维度对任何生成因子保持不变且接近正态分布;
3. 潜在上下文提取最小充分信息,仅捕获与任务变体相关的所有信息。
在经过β - VAE风格的编码器训练后,解码器作为生成模型发挥作用以实现想象。想象通过采样一组想象的潜在上下文zI = {zI(0), …, zI(n)},并将
超级会员免费看
订阅专栏 解锁全文
1101

被折叠的 条评论
为什么被折叠?



