多目标强化学习与图像融合技术解析
1. 多目标强化学习基础
多目标强化学习(MORL)旨在同时优化多个目标。在许多现实场景中,存在相互冲突的目标,例如机器人在杂乱环境中导航时,需要快速移动、避开障碍物并最小化能耗;在深海寻宝问题中,智能体要在水下收集宝藏并尽量减少水下停留时间。MORL 技术使智能体能够同时优化多个目标,实现更有效的决策和更好的权衡。
与被动模仿学习相比,MORL 克服了其缺点。被动模仿学习使用数据集,每次迭代选择最优动作,不追求长期目标,因此比其他算法更容易失败。而 MORL 通过将标量奖励信号与多个反馈信号相乘(基本上每个目标对应一个信号),避免了工程师选择标量奖励或对多个奖励进行标量化的决策。
2. 帕累托 Q 学习算法
帕累托 Q 学习是 MORL 领域中最流行的算法之一。它是一种基于价值的 MORL 算法,旨在评估每个潜在状态下每个潜在动作的价值,并据此学习策略。
该算法的工作方式是维护一组 Q 值函数,每个优化目标对应一个。每个 Q 值函数确定在特定情况下针对特定目标采取特定动作所期望的奖励。通过采用考虑所有优化目标的 Q 学习更新算法的变体,迭代更新 Q 值函数集合。
帕累托优化策略用于识别符合帕累托最优的策略集合。如果没有其他策略在所有目标上都严格更优,则该策略为帕累托最优。帕累托 Q 学习维护一组非支配策略,即该集合中没有其他策略在所有目标上都严格更优,以发现这组策略。
3. 学习架构与流程
学习过程如下:
1. 初始化所有超参数,用于调整智能体性能。
2. 对智能体进行 n 个训练周期的训练。在每个周期中,智能体尝试以
超级会员免费看
订阅专栏 解锁全文
1183

被折叠的 条评论
为什么被折叠?



