19、物联网中的多目标强化学习与设备智能推理

物联网中的多目标强化学习与设备智能推理

1. 多目标强化学习在物联网中的应用

1.1 现有方法概述

在物联网中,多目标强化学习(MORL)旨在解决多个目标的优化问题。目前,大多数现有的MORL方法在确定标量化奖励的偏好向量时,依赖于决策者的判断或大量的超参数优化。然而,这种方法在动态的物联网场景中效率极低。

1.2 不同的MORL方法

1.2.1 单策略方法
  • 线性标量化 :为每个目标训练一个单独的Q表,将Q表视为向量,通过与偏好向量做点积形成标量化的Q表,用于决策。该方法在物联网场景中动态改变偏好向量时具有一定优势,但只能给出帕累托前沿复杂区域的解。
  • 其他单策略变体 :如W - Steering和Q - Steering,但这些方法大多依赖决策者选择偏好向量,而不与环境交互学习。不过,有研究尝试引入单独的网络来学习偏好向量。
1.2.2 多策略方法
  • 凸包值迭代(CHVI)算法 :能够同时为多个分配的偏好向量学习最优策略。
  • 改进的Q学习算法 :为支持多目标,需进行两项修改:一是算法学习的值必须为向量形式,向量中的每个元素对应环境中的一个目标;二是通过对Q表的向量值应用加权函数进行贪婪动作选择。但该方法在大多数物联网应用中存在可扩展性问题,且训练后的偏好变化仍是挑战。
1.2.3 基于动态偏好的方法
<
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值