物联网中的多目标强化学习与设备智能推理
1. 多目标强化学习在物联网中的应用
1.1 现有方法概述
在物联网中,多目标强化学习(MORL)旨在解决多个目标的优化问题。目前,大多数现有的MORL方法在确定标量化奖励的偏好向量时,依赖于决策者的判断或大量的超参数优化。然而,这种方法在动态的物联网场景中效率极低。
1.2 不同的MORL方法
1.2.1 单策略方法
- 线性标量化 :为每个目标训练一个单独的Q表,将Q表视为向量,通过与偏好向量做点积形成标量化的Q表,用于决策。该方法在物联网场景中动态改变偏好向量时具有一定优势,但只能给出帕累托前沿复杂区域的解。
- 其他单策略变体 :如W - Steering和Q - Steering,但这些方法大多依赖决策者选择偏好向量,而不与环境交互学习。不过,有研究尝试引入单独的网络来学习偏好向量。
1.2.2 多策略方法
- 凸包值迭代(CHVI)算法 :能够同时为多个分配的偏好向量学习最优策略。
- 改进的Q学习算法 :为支持多目标,需进行两项修改:一是算法学习的值必须为向量形式,向量中的每个元素对应环境中的一个目标;二是通过对Q表的向量值应用加权函数进行贪婪动作选择。但该方法在大多数物联网应用中存在可扩展性问题,且训练后的偏好变化仍是挑战。
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



