智能交通系统中认知无线电的自适应频谱管理
1. 引言
城市轨道交通在高峰时段经常面临巨大的客流量。对于城市轨道交通移动无线网络而言,这一现象会立即导致大量并发用户出现,这些用户竞争有限的频谱资源[1]。此外,大部分预分配频谱被间歇性使用,导致宝贵频率资源的利用率不足和浪费[2]。采用认知无线电技术(Cognitive Radio, CR)非常适合在高速铁路的公共宽带通信中获取网络接入所需的频谱资源[3]。首先,无线通信的频带资源非常稀缺,特别是为无线网络获取已分配频率资源正变得越来越困难[4]。其次,轨道交通通常建设在开放区域或相对封闭环境。在类似环境中,一般不存在严重的电磁污染,且频带的平均利用率远低于城市其他区域[5]。第三,铁路通信通常通过定向天线进行,并采用其他方法限制发射功率,使信号局限在较窄范围内,从而显著降低了对主用户的干扰[6]。
认知无线电(CR)网络已被提出作为解决传统无线网络中频谱效率和资源稀缺问题的方案 [7][8][9]。它能够检测未使用的频谱资源,并允许未授权设备(也称为认知无线电用户)与已在使用已分配频谱的授权用户共存。也就是说,一旦检测到授权设备(也称为主用户或 PU),未授权设备必须立即退出该频段。然而,由于可用频谱的剧烈波动以及多样化的服务质量(QoS)需求,认知无线电网络面临着独特的挑战。特别是在认知无线电自组织网络中,分布式多跳架构、动态网络拓扑以及时变和位置变化的频谱可用性是其中一些关键的区别特征。由于认知无线电网络必须恰当地选择其传输
基于有限的环境信息,它必须能够 learn 从经验中学习,并 adapt 调整其运行[10]。这些挑战要求采用新颖的设计技术,将机器学习的理论研究与网络层面的系统设计同时结合起来。
强化学习 [11] 是一种受生物学中的心理学学习理论启发而产生的学习范式 [12]。在一个环境中,学习代理试图执行最优动作,以通过与环境交互来最大化长期奖励。长期奖励是指代理在当前策略下未来预期获得的累积奖励,可通过价值函数来表示。价值函数通常是一个查找表,用于直接存储各个状态的值。
在本提案中,我们关注具有分布式控制 [13][14] 的认知无线电自组织网络。认知无线电自组织网络的架构如图1所示,可分为两类:主网络 和 认知无线电网络 组件。主网络 由在特定频谱带上拥有操作许可证的 主要用户 (PUs)组成。认知无线电技术提供了与已获许可用户共享无线信道的能力,这些用户已经拥有已分配频谱。为实现这一点,CR用户需要持续监测频谱中主用户的存在,并根据高层的需求和要求重新配置射频前端。该能力可以通过如图 2[15][16], 所示的认知循环实现,该循环由以下频谱功能组成:(1)确定当前可用的频谱部分(频谱感知),(2)选择最佳可用信道(频谱决策),(3)与其他用户协调对该信道的访问(频谱共享),以及(4)当检测到授权用户时有效腾出该信道(频谱移动性)。
通过利用机器学习,可以有效地执行频谱感知和共享任务,从而区分不同的干扰源传输模式。类似地,通过将每个CR用户视为一个代理 并利用多代理交互算法,网络可以在主用户收回频谱时实现频谱的公平共享和快速恢复。
与上述频谱功能相比,我们所提出工作的主要贡献如下:
- 频谱使用长期感知 :基于活动情况对频谱带进行表征,特别是学习信道的利用情况,是CR用户的一项关键功能。必须开发在线学习算法,使CR用户能够持续收集其无线电环境的信息,并构建利用率函数。除了简单地将频谱分类为繁忙或可用之外,若能获得概率分布则更有益
可以推导出主用户预期的传输/静默时长。我们提出了一种紧密集成的、基于强化学习的链路层协议,用于调度认知无线电传输的时间。
- 端到端学习 : 分布式网络依赖于源‐目的节点对之间的多跳转发。路径上的每个认知无线电用户随着时间推移学习其自身的频谱环境,该信息可在路径的起点和终点被利用,以对频谱选择和路由选项做出最优决策。例如,节点处的本地频谱切换成本会影响端到端延迟。虽然频谱特性可以本地推断,但为了最小化路径内切换,在每条链路处具体选择哪个频谱必须在路径的端点进行。我们探索了节点如何将其获得的学习成果和频谱感知信息与其本地邻居共享,并进一步通过多跳传递至目的地的方法。本项目研究了这种学习的成本与收益。
本文组织如下。在第 节中,我们对认知无线电问题进行建模。在第 节中,我们描述了基于强化学习的认知无线电。仿真的实验结果在第 节中给出。我们在第 节中总结全文。
2. 问题建模
我们假设网络由一组主用户和认知无线电用户组成。认知无线电用户独立于邻近的其他用户,自主决策选择频谱和发射功率。用户(或代理) i 对频谱的选择本质上是选择由 f i ∈ F 表示的频率。认知无线电用户在每个时隙持续监测其所选择的频谱。我们假设为完美感知,即当认知无线电用户位于主用户的传输范围内时,能够正确推断出主用户的存在。
2.1. 功率分配
认知无线电用户 i 选择的发射功率由 P i tx 给出。传输范围和干扰范围分别表示为 Rt 和 Ri 。我们的仿真器使用自由空间路径损耗方程来计算到达接收机的衰减后的功率 (Pj rx) 。因此,
Prjx= α · P i tx{D i}−β ,其中 α= c2(4πfi)2 是认知无线电用户 i 所选择的频率 fi、路径损耗指数 β= 2 以及光速 c= 2 × 108 m/s 的函数。所选择的功率值是离散的,并且在连续时隙中可以从任意给定值跳变到另一值。CR用户通过动作来收集奖励,并在后续轮次中优化选择概率。我们接下来进行描述。
2.2. 奖励
不同网络条件下的奖励如下:
-
CR-PU干扰 :如果主用户(PU)在认知无线电用户共享的频谱中活动,并且发生在 CR用户选定的同一传输时隙内,则会施加 −15 的高惩罚。其直观含义如下:我们允许 CR用户之间的碰撞,尽管这会降低链路吞吐量;然而,与主用户同时使用频谱违反了对授权设备的保护原则,因此必须严格避免。
-
认知无线电网络内部碰撞 :如果数据包与另一个并发的CR用户传输发生碰撞,则施加 −5 的惩罚。CR用户之间的碰撞会降低链路吞吐量,必须避免。对CR用户因网络内部碰撞而施加的相对较低的惩罚,旨在鼓励用户选择不同的频谱带(如果可用),从而实现可用频谱的公平共享。
-
信道引起的错误 :由于某些频谱带的衰减率较低,因此对信道错误具有更强的鲁棒性。通过优先选择数据包错误率(PER)最低的频谱带,认知无线电用户可减少重传及相关的网络延迟。接收机处的载波噪声功率比,记为 j,可通过 Pj rx N 计算,其中假设噪声功率 N 为 10−10 毫瓦。因此,每比特能量为 Eb/N0 Eb N0 = Pj rx N × Bw R。由此可推导出在接收机 j 处 QPSK 调制的误码概率 Pj b 为 Q(√2 · E b N0) ,其中信道带宽 Bw 为 22 MHz,比特率 R 为 2 Mbps,考虑的是类似于 IEEE 802.11b 规范中定义的信道结构。 Q 是 Q 函数,可用误差函数 erf 表示为 Q= 1 x √2 ))
此外,假设每个数据包长度为 ψ 比特,我们可以通过数据包错误率来计算传输失败的概率 ket transmitted b y the send PER= 1 −(1 − Pj b) ψ。
-
链路断开 : 如果接收功率(Pj rx )低于接收机 P rth 的阈值(此处假设为 −85 dBm),则所有数据包被丢弃,并施加一个严重罚款 −20。因此,发送方应迅速提高其发射功率选择,以重新建立链路。
-
成功传输 : 如果在给定的传输时隙中未观察到上述任何条件为真,则数据包从发送方成功传输到接收机,并分配 +5 的奖励。
智能交通系统中认知无线电的自适应频谱管理
3. 认知无线电的自适应频谱管理
3.1. 强化学习描述
强化学习[11]是一种流行的机器学习范式,其灵感来源于生物学中的心理学学习理论 [12]。在一个环境中,学习代理尝试执行最优动作,以通过与环境交互来最大化长期奖励。
一个 environment 是特定问题领域的模型,通常被表述为马尔可夫决策过程(MDP)[17]。
一个 state 是代理在环境中可以感知的某些信息。
一个 action 是代理在特定状态下某一时刻的行为。
reward 是对代理在环境中特定状态下动作的可取性的一种度量。
经典的强化学习算法定义如下。在每个时刻 t,代理感知其当前状态 st ∈ S 以及可能的动作集合 a ∈ Ast。代理选择一个动作,并从环境中获得新的状态 st+1 和奖励 rt+1。基于这些交互,强化学习代理必须制定一个策略 π: S→ A,以最大化马尔可夫决策过程(MDPs)中的长期奖励 R=∑t γrt,其中 0 ≤ γ ≤ 1 是后续奖励的折扣因子。长期奖励是指代理在特定策略下预期在未来获得的期望累积奖励,可通过价值函数来表示。
3.2. 在认知无线电中的应用
如果我们将每个认知用户视为一个代理,将无线网络视为外部环境,那么认知无线电可以被建模为一个系统,在该系统中,通信代理感知其环境,学习并调整其传输参数,以最大化通信性能。这种建模方式非常契合强化学习的框架。
每个认知用户充当一个强化学习代理。这些代理感知其当前状态,即频谱和发射功率,并选择动作,即切换信道或改变其功率等级。然后通过与网络环境的交互,这些代理获得传输奖励并转移到新的状态。
我们将认知无线电网络建模为由一组节点的收发器对 CU、一组可用频率 SP 和一组可用功率等级 PW 组成。我们假设给定网络的拓扑结构是固定的。
代理的状态是其传输的当前频率和功率等级。多智能体系统的状态包括每个代理的状态。因此,我们将系统在时间 t 的状态(记为 st)定义为
st = (sp, pw)t,
其中 sp 是频率向量,pw 是所有代理的功率等级向量。这里 spi 和 pwi 分别是第 i 个代理的频率和功率等级,spi ∈ SP 和 pwj ∈ PW。通常,如果有 M 个频率和 N 个功率等级,我们可以使用索引来指定这些频率和功率等级。这样,我们得到 SP = {1, 2, …, m} 和 PW = {1, 2, …, n}。
动作 a 允许代理在 SP 中从当前频率切换到一个新的可用频率,或在 PW 中从当前功率等级切换到一个新的可用功率等级。这里我们将时间 t 的动作 at 定义为
at = (k)t,
其中 k 是所有代理的动作向量。这里 ki 是第 i 个代理的动作,ki ∈ {jump_spectrum, jump_power}。奖励 r 是网络的性能。通过这种方式,我们可以应用强化学习框架来解决认知无线电问题。
4. 实验仿真
在本节中,我们描述了将基于强化学习的方法应用于认知无线电模型的初步结果。我们所提出的基于学习方法的总体目标是使 CR 用户(即代理)能够决定发射功率和频谱的最优选择,以确保:(i) 不影响主用户,以及 (ii) CR 用户以公平方式共享频谱。这两条规则旨在模拟城市轨道交通环境中的公众行为。也就是说,由于开放区域或相对封闭环境的影响,那些被授权用户频繁占用的频带很少被利用。而公众可以以相同的概率机会性地使用频带资源。
4.1. 实验设计
一种新型的认知无线电网络仿真器已被设计用于研究所提出的强化学习技术对网络运行的影响。如图3所示,我们实现的 ns‐2 模型由对物理层、链路层和网络层进行的若干修改组成,这些修改以独立的 C++ 模块形式存在。主用户活动模块基于开关模型描述了主用户的活动,包括其传输范围、位置和使用频段。信道模块包含一个信道表,其中记录了背景噪声、容量和占用状态。频谱感知模块实现了基于能量的感知功能,一旦检测到主用户,便会通知频谱管理模块。这将导致设备切换到下一个可用信道,并向上层协议通报频率的变化。频谱共享模块协调分布式信道接入,并计算由于网络中正在进行的传输而在任意节点产生的干扰。跨层信息库促进不同协议栈层之间的信息共享。
我们对两种拓扑结构进行了仿真研究:一种是包含总共 18 个 CR 用户的 3 × 3 网格网络(小规模拓扑),另一种是在边长为 2000m 的方形区域内随机部署 500 个 CR 用户(大规模拓扑)。所有部署节点中有一半是发送节点,每个发送节点的最近邻节点为其对应的接收机。我们将时间划分为时隙,每个发送节点的链路层在每个时隙以概率 p = 0.2 尝试发送。在小规模拓扑中,假设有 4 个频谱带,由集合 F = {50MHz, 500 MHz, 2 GHz 和 5 GHz} 给出,并有 4 个发射功率值。共有 2 个主用户。在大规模拓扑中,假设有 400 个频谱带,默认选择范围为 50 MHz 到 5 GHz,并有 20 个发射功率值。共有 100 个主用户。在两种拓扑结构中,允许的功率值 20m 在 0.5 毫瓦至 4 毫瓦之间均匀分布。
每个主用户(PU)被随机分配一个默认信道,并以概率 0.5 停留在该信道。它也可以以递减的概率 {0.4, 0.3, 0.3} 切换到其他三个预先选定的连续信道。因此,主用户在特定信道上具有某种潜在的活动分布,但该分布对认知无线电用户(CR user)未知。认知无线电网络中的传输发生在多组预设的节点对之间,每一对节点构成一个链路,表示为 {i, j}。括号中的术语表示从发送节点 i 到接收机 j 的定向传输。信道的选择由发送节点决定,并通过公共控制信道(CCC)通知接收机。该公共控制信道也用于向发送节点返回反馈,告知接收机可能遇到的碰撞情况。然而,数据传输仅在构成链路的节点对所选择的频谱上进行。
4.2. 实验结果
我们将基于强化学习(RL‐based)的方案与其他三种方案进行性能比较:(i)随机分配,该方案在每个时隙选择一个随机的频谱和功率组合;(ii)具有历史记忆 1 的贪婪分配(G‐1);以及(iii)具有历史记忆 20 的贪婪分配(G‐20)。G‐1 算法为每个状态(即每种可能的频谱和功率组合)存储上次选择该组合时获得的奖励(如果存在)。该算法以概率 η 选择之前奖励最高的组合,并以概率 (1−η) 探索一个随机选择的组合。G‐20 算法为每个功率和频谱组合维护一个存储库,记录过去 20 个时隙中获得的奖励,并从过去 20 个时隙中选择最佳组合。与 G‐1 类似,G‐20 以 η = 0.8 的概率从历史记录中选择已知的最佳组合,并以概率 (1−η) = 0.2 探索一个随机选择的组合。在我们的基于强化学习(RL‐based)的方案中,探索率 ϵ 设置为 0.2,这是我们通过实验发现能够取得最佳结果的值。初始学习率 α 设置为 0.8,并在每个时隙后按 0.995 的缩放因子递减。请注意,G‐1 使用的内存与基于强化学习(RL‐based)的方案相同,但 G‐20 使用的内存是其 20 倍。
小规模拓扑。)
大规模拓扑。)
图4:成功传输的平均概率
图4(a) 显示了将四种方案应用于小规模拓扑时成功传输的平均概率。结果表明,基于 RL 的方案以大约 94.6% 的平均概率发送成功分组,而 G‐20、G‐1 和随机方案分别以大约 93.4%、45.9% 和 46.2% 的平均概率发送成功分组。类似地,图4(b) 显示了大规模拓扑中成功传输的平均概率。基于 RL 的方案以大约 60.1% 的平均概率发送成功分组,而 G‐20、G‐1 和随机方案分别以大约 56.0%、43.4% 和 43.5% 的平均概率发送成功分组。然而,由于 Q 表尚未完善,学习曲线初始阶段表现不稳定,这一现象在节点数量较多的情况下尤为明显。总体而言,结果表明,在学习之后,基于 RL 的方法能够有效保证成功传输,其性能远优于其他方案,包括使用超过一个数量级内存的 G‐20 方案。
5. 结论
城市轨道交通的快速发展对铁路运输中的公众提出了实时、可靠且高效的无线接入服务需求。认知无线电可以在不影响这些频段现有主用户的情况下,机会式地在授权频率上进行传输。尽管其具有动态网络拓扑以及随时间和位置变化的频谱可用性的显著特征,但在有限的环境信息基础上如何恰当地选择传输参数仍存在关键挑战。为应对这一挑战,我们提出了一种新的频谱管理方法——一种基于强化学习的、用于具有分布式控制的认知无线电自组织网络的管理方法。该方法利用值函数来衡量选择不同传输参数的期望性,并通过最大化长期奖励实现频谱和发射功率的有效分配。
我们通过将所提出的方法应用于具有小规模和大规模拓扑的实际场景中来评估其性能。通过与随机频谱分配和贪婪频谱分配的通信性能进行比较,结果表明,我们基于强化学习的方法优于其他方法。因此,我们得出结论:在认知无线电自组织网络中,我们基于强化学习的频谱管理能够显著减少对授权用户的干扰,同时保持较高的成功传输概率。
811

被折叠的 条评论
为什么被折叠?



