A Survey on Multi-Agent Reinforcement Learning Methods for Vehicular Networks

摘要

在物联网(IoT)的飞速发展下,车辆可以被视为移动的智能体,它们可以进行通信,合作以及竞争资源和信息。 车辆需要学习策略并做出决策,以提高多智能体系统(MAS)应对不断变化的环境的能力。多智能体强化学习(MARL)被认为是在高度动态的车载MAS中寻找可靠解的学习框架之一。 在本文中,我们对与车辆网络相关的研究问题进行了调查,例如资源分配,数据卸载,缓存放置,超可靠的低延迟通信(URLLC)和高移动性管理。此外,我们展示了MARL的潜在应用,该技术可在车辆万物互联(V2X)场景中实现分布式和可扩展的决策制定。

I INTRODUCTION

车对万物通信(V2X)是一项重要技术,可传输服务请求并交换车辆彼此的信息,吸引了许多研究人员兴趣。 有效的资源分配对于车辆网络至关重要,因为它可以满足车辆行驶过程中用户的需求偏好。车辆网络中的许多资源分配技术和问题都有待解决。 这些问题可以分类为通信、存储和计算资源分配等。 在这里我们总结了其中的一些问题,并展示了车载网络的多智能体强化学习(MARL)的优势以及它如何在资源分配、高移动性、功率分配方面提高车载网络的性能、延迟、带宽和可用容量。

在强不确定性和固有非平稳的车辆网络环境中,MARL被认为是得到最优解决方案或接近最优方案的良好系统。多辆车之间的合作使他们可以为共有的利益学习新的行为,并提高应对动态环境的完整系统的性能。多主体系统被定义为马尔可夫决策过程(MDP),此过程中不存在适用于分布式系统的全局控制和全局稳定知识。该代理与环境保持互动以提高车辆的智能,并根据该环境的反馈选择最佳动作。

任何强化学习(RL)算法的目标都是创建一个函数,该函数将感知到的环境(一般称之为观测值 o 或者状态 s )映射到行动,并且将此函数称为策略函数。它通过在每个状态中尝试不同的操作,以得到最佳结果而创建。这种试验并改错(trial-and-error)的过程不会对环境进行任何假设。每次动作后,都会通过奖励函数计算出数值奖励。

在车联网中,MARL的学习显得更加困难,因为车辆的高移动性和数目会导致环境的高度变化【所以是环境的高度变化使MARL的实施更加困难】。为此,在车辆上使用MARL的主要目标是,将多个车表示成 multi-agent,允许车辆将相邻车辆作为agent来学习,进而提高网络性能。另一个目标是研究分布式网络下的不同问题,例如使用多智能体算法进行资源分配,使多代理能够采取最佳行动,并通过反复试验在共享环境中获取良好的表现。另外,无论代理知道多少有关其他代理或环境的信息,都将在多代理系统中进行学习。

将车辆网络与MARL结合的重要研究方向之一是控制车辆到车辆(V2V),车辆到基础设施(V2I)或从云到云之间的流量卸载, 提高能源效率(EE)并减少处理延迟。了解计算资源有助于减轻任务负担。

缓存是另一个关键方向,它可以减少蜂窝基础结构(如路边单元(RSU)和宏基站(MBS))上的负载。 根据车辆的不同属性,使用车辆存储流行内容并寻找存有内容的相关车辆,以此减少基础结构上的负载,提高能源效率、传输速率并减少处理延迟。

图1展示了V2X的四种通信模式:V2V V2I V2P V2N。在V2V模式中,我们需要管理安全消息的广播以及车辆之间

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值