物联网中的多目标强化学习与智能推理
1. 多目标强化学习(MORL)方法
在物联网(IoT)场景中,多目标强化学习(MORL)旨在解决多个目标的优化问题。以下是几种常见的MORL方法:
- 单策略方法 :
- 手动确定偏好向量 :在许多现有的MORL方法中,标量化奖励的偏好向量是手动确定的。这依赖于决策者的判断或大量的超参数优化,但在动态的IoT场景中效率较低。
- 线性标量化 :为每个目标训练一个单独的Q表,将Q表视为向量,通过Q向量与偏好向量的点积形成标量化的Q表:$\hat{Q}(s, a) := \lambda \cdot Q(s, a)$。这种方法在偏好向量动态变化的情况下有一定优势,但只能给出帕累托前沿复杂区域的解。
- 多策略方法 :
- 不降低目标空间维度 :RL代理需要同时或迭代地学习多个最优策略。例如,凸包值迭代(CHVI)算法可以同时为多个分配的偏好向量学习最优策略。
- 改进的Q学习算法 :为了使常规的Q学习算法支持多目标,需要进行两项改动:
1. 算法学习的值必须是向量形式,向量中的每个元素对应环境中的一个目标。
2. 通过对Q表的向量值应用加权函数来进行贪婪动作选择。
以下是这些方法的对比表格:
| 方法类型 | 优点 | 缺点 |
| ---- | ---- | ---- |
| 单策略方法 | 偏好变化时无需重新训练代理 | 只能给出帕
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



