基于随机森林的车联网决策系统

部署运行你感兴趣的模型镜像

联网车辆的网络多样性利用的自动化决策系统

摘要

在本研究中,我们提出一种方法论,利用车辆通信中存在的固有网络多样性来提升车辆安全应用的性能。该方法论基于一个框架,通过一组决策规则同时利用各个独立网络的优势。实现过程首先采用手动方法,使用典型的分层决策树来表征单个应用在网络中向其他用户发送数据时的决策过程。分析与仿真结果验证了利用网络多样性的决策系统方法的有效性,表现为应用性能得到提升,平均延迟低于100毫秒,吞吐量因分组投递率提高而增加了40%。随后,我们应用集成学习技术——随机森林(RF),以自动复现手动构建的决策树系统的性能。在真实交通场景下的仿真表明,RF方法能够以高达98%的准确率复现手动构建的决策树性能。与另一种最先进的混合方法相比,RF方案在不同应用场景下无需额外手动调整即可提升性能。通过我们的方法论,可引入不同的应用需求和网络特性,从而获得一个完全自动化且可适应的决策系统,用于优化车辆安全应用。

索引词 —联网车辆,决策系统,决策树学习,异构网络,随机森林。

一、引言

政府、学术界和工业领域为推动智能交通系统(ITS)的发展投入了大量资金,这促使了可部署于车辆和道路基础设施的安全与交通管理应用的开发。鉴于车辆之间(车对车通信)以及车辆与基础设施之间的通信(车联网通信)。在现有技术中,蜂窝4G/5G和IEEE 802.11‐OCB(以前称为IEEE 802.11p)是主要候选技术,两者均被认为非常适合提供智能交通系统服务[1],[2]。

然而,车辆的高移动性和车载通信网络的动态拓扑变化使得仅通过单一无线网络难以提供令人满意的智能交通系统服务。事实上,业界普遍认为,车载网络的支撑基础设施和通信技术本质上将是异构的,从而形成网络多样性[3],[4]。因此,未来的车载网络应考虑设计用于利用多接入技术的系统,即所谓的异构车载网络(HetVNET)。该网络模型如图1所示。

示意图0

还必须注意到,IEEE 802.11‐OCB 和移动蜂窝网络在车辆环境中使用时都有其自身的局限性。

特别是,IEEE 802.11‐OCB 主要设计用于短距离通信,无需普遍的路边基础设施,但随着网络密度的增加,它几乎无法在车辆之间提供可靠的连接[1],[5]。另一方面,尽管移动蜂窝网络可以提供广泛的地理覆盖,但它们无法有效支持本地区域的实时信息交换[6]。

需要强调的一项新兴技术是C‐V2X[7],目前正挑战802.11‐OCB在V2X通信领域的主导地位。C‐V2X指的是由3GPP标准化的、面向汽车应用的一系列蜂窝技术。本质上,它是一种在标准REL14[8]中定义的LTE变体,增加了直连车对车功能。C‐V2X与802.11‐OCB之间的主要问题在于,尽管两种技术使用相同的频谱,但它们可能无法实现互操作。由于二者采用了不同的物理层和MAC协议,其共存可能导致有害的同信道干扰问题。因此,我们的研究重点是探讨802.11‐OCB与标准LTE之间的互操作,鉴于这两种技术之间已证实具备兼容性,并且有望在吞吐量和延迟方面提升关键安全应用的性能。

显然,每种接入网络都有其优势和缺点。从长远来看,这不应该是不同选项之间的竞争;相反,需要将多种选项结合起来,以在异构基础设施中运行一个可靠的通信系统。

在本研究中,我们通过创建一个集成了若干组决策规则的智能框架来利用多种选项。该方法允许数据包通过在吞吐量和延迟方面条件最有利的网络进行传输。在应用方面,我们专注于单一类别,即协同感知应用,因为它们具有相似的可靠性与延迟需求。更具体而言,根据应用需求,协同感知应用的控制和信令流可以通过IEEE 802.11‐OCB传输,而数据流则可通过蜂窝基础设施传输。

此外,我们证明了决策树方法有助于通过提升应用性能来完成当前任务。然而,要获得真正鲁棒且通用的决策系统,必须设计并实现许多不同的决策树。因此,在本研究中,我们还对系统进行了自动化,并证明通过所提出的自动化方法可以获得更鲁棒且更通用的决策系统。最后,我们通过对比分析表明,该决策系统方法在网络延迟和分组投递率(PDR)方面均能优于最先进的混合架构。

据作者所知,所提出的决策系统方法是首个在消息生成时刻针对每个用户尝试解决网络选择问题的方法,且无需进行过度计算或执行复杂算法(如聚类和仿生机制)。该决策系统显著提高了满足安全应用严格需求的概率。此外,我们的方法还具有灵活性的优势以及与其他最先进的混合方案集成的潜力。

本文的其余部分组织如下。在第二节中,我们回顾了相关工作。在第三节中,我们介绍了决策系统框架,并通过分析模型和仿真对其性能进行了分析。第四节讨论了决策系统的自动化,并介绍了随机森林算法。第五节基于仿真实验进行了一项比较研究。最后,第六节总结了我们的主要结果和发现,并对全文进行了总结。

II. 相关工作

最初,关于异构车联网(HetVNETs)的研究主要集中展示将特定网络集成到现有网络中(无论是将蜂窝网络集成到车载网络,还是反之)如何能够提升联合网络在特定应用或场景下的性能。例如,文献[9]提供了一项分析研究,量化并评估了车载自组织网络(VANETs)在考虑车载链路的容量和稳定性、基础设施特性以及服务质量(QoS)流约束的情况下,能够从蜂窝基础设施中卸载多少流量。同时,文献[10]探讨了利用车对车通信部分缓解蜂窝基础设施承载浮动车数据流量的可行性。

最近,研究重点已转向混合架构(即多网络架构)的开发,其显著特征通常是所提出的网络选择方案。例如,Li 等[11]提出了一种蜂窝‐VANET异构网络架构,以更高效地传播数据。他们引入了一种基于联盟博弈理论的协作协议,将两种网络结合起来,以提升安全消息传播的效率。同时,Zhu等[12]在异构网络中的网络选择方法基于信息论,他们将选择问题建模为不完全信息贝叶斯博弈,假设每个用户仅掌握其他用户偏好的部分信息。

在混合架构之间需要考虑的另一个关键方面是,它们是否考虑了在线网络状态。一些方案仅考虑有关可用网络的基本静态信息[9]–[11]。然而,更复杂的方案则集成了有关网络状态的在线信息(例如,带宽分配和信道拥塞),以解决网络选择问题[12]–[14]。例如,Ucar et al.[13]提出了一种用于消息传播的IEEE 802.11p和LTE混合架构。他们结合了车辆聚类和蜂窝架构,旨在实现高分组投递率和低延迟,同时将蜂窝基础设施的使用保持在最低水平。Tian et al.[14]提出了一种生物启发式网络选择方案,旨在保障移动用户的服务质量以及网络资源的高效利用和公平分配。该方案基于吸引子选择模型(ASM),用于描述细胞基因网络对变化环境条件的自适应响应。

并发性 网络状态 应用需求
[9] 静态
[10] 静态
[11] 静态
[12] 动态
[13] 动态
[14] 动态
本文 动态

表I 现有传播方案及其在异构车联网(HetVNETs)关键领域的应对方法

然而,许多方法存在一个普遍问题,尤其是那些侧重于使用更抽象的数学工具(例如博弈论、信息论和优化)[9]–[12]的方法,它们通常以成本/效用函数和概率分布来衡量性能。虽然这有助于展示各自的优势,但却无法让我们以更具体的量度(如分组投递率和延迟)来直观地观察其影响。

此外,大多数方案报告将实现低延迟作为目标,但并未明确针对(更不用说实现)安全应用所需的100毫秒关键阈值。而且,通常也未提及应用所运行的具体信标频率。对于其具体的可靠性及通信模式需求也是如此。

在考虑现有的相关传播方案时,我们在开发所提出的系统时确定了三个关键领域:第一,并发性,即一种方案并行利用多个网络的能力;第二,网络状态,即一种方案考虑当前网络状态(如拥塞和用户数量)并适应其变化的能力;第三,应用需求,即考虑特定应用的需求(如延迟、信标频率等)并满足这些需求的能力。表I展示了现有相关方法在这些关键领域的比较。

安全应用,特别是协同感知应用,必须在各种网络条件下满足严格的可靠性和延迟需求。我们方法的一个关键优势在于,从这些严格的需求出发,以单车的视角构建决策系统。该系统随后融合了关于网络状态的知识以及不同可用接入机制的固有优势,以满足这些严格需求,从而形成一种方案,提升应用在其最关键领域的性能。

III. 基于决策分析的智能系统

如前所述,在图1所示的异构车联网中,通常存在两种类型的通信链路:车对车(V2V)和车对基础设施(V2I)。车对车(V2V)支持短距离和中距离通信,具有低部署成本,并可实现低延迟的短消息传输。车对基础设施(V2I),除了通过基站或路侧单元(RSU)扩展覆盖范围外,还可通过交通控制中心和互联网为信息娱乐应用提供外部连接。

通常,IEEE 802.11‐OCB 被认为比蜂窝网络更适合用于车对车通信,因为在蜂窝网络中,设备到设备(D2D)链路与LTE网络中的其他链路共享相同的无线资源,干扰是一个主要问题。在 IEEE 802.11‐OCB 中,信道拥塞曾是一个重要问题,因为随着邻近车辆数量的增加,与CSMA 协议相关的碰撞概率也随之上升。这导致了较高的端到端时延和较低的信道利用率[1]。然而,近年来针对 802.11‐OCB 的研究提出了多种标准拥塞控制算法,这些算法能够在情况变得严重之前调节关键参数(例如发射功率和信标频率)[15],[16]。尽管如此,虽然信道拥塞的影响已有所降低,但无法完全消除。由于信道接入机制本身的特性,大量用户(以及更高的数据负载)最终总会导致更高的延迟值。与此同时,LTE 更适合用于车联网通信,因为它提供了广泛的覆盖范围、稳健的移动性管理机制、较高的上行链路和下行链路容量、集中式扁平化架构以及高效的广播能力[5]。

为了利用不同接入网络的特性,我们提出了一种智能决策框架,该框架初步介绍于[17],并在图2中进行了说明。该框架旨在通过允许单个应用充分利用所有并行工作的无线接入网络(RAN),从而在总吞吐量和端到端延迟方面提升网络性能。我们在图2中实现该框架决策规则模块的初步方法基于决策树,如图3所示。

示意图1

每个数据流都有其自身的规则,这些规则取决于网络类型、当前网络状况、应用需求以及链路方向(即上行链路或下行链路)。区分链路方向是必要的,因为在做出决策时,单车通常比网络基础设施掌握的信息更少。层次树描述了单个应用在向网络中其他车辆发送数据时的决策过程,使得对于每个数据流,发送方都试图最小化端到端延迟并提高吞吐量,在不降低应用可靠性要求的情况下,该系统。

A. 使用IEEE 802.11-OCB和LTE的用例

考虑一种典型的安全应用,其中每辆车持续向其所有邻居发送信标消息。最关键的传输要求是端到端延迟不得超过100毫秒,否则接收器将没有时间做出反应,特别是在紧急应用的情况下。对于大多数场景,ETSI标准要求发送频率为10赫兹,但也存在仅需2赫兹[18],[19]的场景。

可用的接入网络包括:支持自组织模式和基础设施模式的 IEEE 802.11‐OCB(即存在路侧单元),以及 LTE 蜂窝网络。对于任何接入机制,总端到端延迟可概括如下:

$$ T= T_a+ T_{tx}+ \delta+ T_p $$

$T_p$是处理时间,由于它取决于终端设备的处理能力,因此可以假设为一个恒定值。传播延迟是 $\delta$,它取决于物理链路的长度,而传输延迟是 $T_{tx}$,它取决于传输速率和数据包大小。

因此,我们只需关注每种网络类型的接入机制($T_a$)之间的差异。对于802.11p自组织通信,我们简化了[20]中提出的分布式协调功能(DCF)延迟模型,以获得基本模式下的接入时间(即不使用RTS/CTS)。然后,根据DCF机制的工作原理,如果信道在一段时间内($T_{DIFS}$)被检测为空闲,站点可以立即传输;否则,将检测到碰撞,站点将推迟到传输结束,并选择一个随机退避间隔。考虑到这一点,我们为 $T_{Success}$(由于成功传输导致信道被感知为忙的平均时间)和 $T_{Collision}$(每次碰撞期间每个站点感知信道为忙的平均时间)使用以下模型:

$$ T_{Success} = T_{DIFS} + H+ \frac{P}{C_d} + \delta+ T_{SIFS} + \frac{ACK}{C_c} + \delta $$

$$ T_{Collision} = T_{DIFS} + H+ \frac{P}{C_d} + \delta $$

其中,$H$是数据包头部,$P$是以比特为单位的有效载荷,$C_d$是数据信道的链路容量(单位为比特每秒),$C_c$是控制信道的容量。头部 $H$由 $H= PHY_{hdr}+ MAC_{hdr}$组成,有效载荷包含 $IP_{hdr}$。符号 $\delta$表示终端设备内部的传播延迟,该延迟取决于物理层,并计入将信道状态信号传递给MAC层所需的时间。

此外,$T_{SIFS}$是接收器等待将ACK包发送回发射器的时间。由于我们仅关注广播场景,因此可以忽略ACK包的发送。因此,2简化为:

$$ T_{Success}= T_{DIFS}+ H+ \frac{P}{C_d} + \delta $$

在广播场景中,由于成功传输而导致信道被感知为忙的平均时间与发生碰撞期间信道被感知为忙的平均时间相同。在初步分析中,我们仅希望获得一个良好的近似值。为此,我们可以测量网络中每个用户的延迟,然后对测量结果取平均值。如果我们知道某个用户在尝试传输时感知到信道忙 $N$次,则平均分组延迟由以下公式给出:

$$ T= N \ast T_{Collision}+ \sum_{i=1}^{N}\left(\frac{CW_{Min} -1}{2}\right) \ast ST+ T_{Success} $$

其中 $ST$为时隙长度,$CW_{Min}$为竞争窗口的最小尺寸。

在退避过程中,退避时间在以下范围均匀选取:$[0, CW_{Min} −1]$。在我们的近似值计算中,采用 $\frac{CW_{Min} −1}{2}$,因为它代表了该分布的平均值。由于在广播场景中无法使用确认应答,该机制仅有一个退避阶段,且 $CW_{Min}$在每次重传尝试后不会增加。因此,每当用户检测到信道忙时,平均会等待等于$\frac{CW_{Min} − 1}{2}$ 的时间后再重新检测信道。

同时,对于基于基础设施的802.11p,EDCA机制包括使用802.11e标准中规定的AIFS区分和虚拟碰撞机制[21]。在同一项工作中,作者提供了一个简化的延迟模型基本模式下的信道接入时间:

$$ T_{Success}= T_{AIFS_{min}}+ H+ \frac{P}{C_d} + \delta+ T_{SIFS}+ \frac{ACK}{C_c} + \delta $$

$$ T_{Collision}= T_{AIFS_{min}}+ H+ \frac{P}{C_d} + \delta $$

与DCF情况类似,由于我们仅关注广播场景,因此可以忽略与确认消息相关的部分,成功传输的平均时间简化为:

$$ T_{Success}= T_{AIFS_{min}} + H+ \frac{P}{C_d} + \delta $$

最后,如果一个用户在成功传输前平均经历 $N$次碰撞,则每个用户的平均分组延迟再次由5给出。由于我们仅使用一种类型的接入类别(也称为服务类别),因此若 $T_{AIFS_{min}} = T_{DIFS}$,该模型本质上与自组织模式相同(它们通常仅相差一个常数值)。应注意,该模型可扩展以考虑RTS/CTS机制和不同的接入类别。

对于LTE而言,不同延迟模型之间的主要差异源于底层的调度机制。LTE中的协作感知消息交换涉及来自车辆的传输到基础设施,然后由基础设施向相关车辆进行消息分发。上行链路传输始终使用单播;在这种情况下,挑战在于选择最合适的信道类型以避免拥塞风险。随机接入信道(RACH)是一种常用的公共上行传输信道,通常用于信令以及传输小数据量,例如协作感知消息(CAM)和危险事件通知消息(DENM)[22]。另一方面,基于PUCCH的传输不易发生碰撞,且不包含退避周期。在[23]中,作者比较了PUCCH与RACH机制的性能。通过PUCCH调度的优势包括高可靠性和接近确定性的数据延迟值。假设一次数据包传输占用1个子帧即1毫秒,则平均分组延迟可按如下方式获得:

$$ E[\tau]= \frac{T}{2}+ T_0+ 1 $$

其中$T_0$(8 ms)是PUCCH过程持续时间,$T$(10 ms)是PUCCH调度请求周期。需要强调的是,PUCCH仅用于车辆到基站的上行通信。之后,将根据需要通过基于LTE的多播机制将消息传递给其他车辆。

B. 决策树概念验证

在本节中,我们通过仿真评估了决策树的有效性。仿真平台基于Veins[24]一个用于进行车载网络仿真的开源框架,更具体地说是基于其扩展版本Veins LTE[25]。Veins LTE 在其应用开发模块中包含了一个基本的决策模板,因此可以在仿真器内开发自定义的消息传播方案。利用该模块,我们将决策系统部署到仿真框架中的每一辆车辆中,从而在仿真中实现了期望的行为。

需要注意的是,路径损耗模型对于准确建模车载网络中的信息传播至关重要。为此,我们采用了能够捕捉地面反射效应的双射线干涉模型[26],[27]。我们还假设,通过控制仿真器提供的最大干扰距离参数,可以减轻街道间信标消息带来的干扰。请注意,该仿真器还包括一个简单的障碍物阴影模型,该模型已根据实际测量数据进行了校准和验证[28],[29]。

在模拟场景中,车辆沿包含一个交叉路口的道路路径行驶,如图4所示。为实现数据传播,实现了一种典型的碰撞预警应用。在该应用中,每辆车持续向其所有邻居发送信标消息(CAM);当检测到碰撞时,碰撞预警信息将被传递给附近区域的所有车辆。

参数
仿真工具 Veins 4.7.1 / OMNeT++ 5.6.1
无线电模型 802.11p
信道模型 双射线干涉
路径损耗指数 2.5
传输功率 20 dBm
接收灵敏度 -90 dBm
信道带宽 10 MHz
数据速率 6 Mbps
信标频率 2 Hz / 10 Hz
数据包大小 200 bytes
最大速度 35 m/s

表II 仿真参数

示意图2

图5(a)和图5(b)分别显示了频率2 Hz和10 Hz下的平均MAC层延迟。我们观察到,当接入网络独立工作时,两者均能在一定数量的邻居车辆下实现小于100毫秒的数据包传输。然而,当10 Hz传输的邻居数量超过12个(相应地,2 Hz传输超过30个邻居)时,IEEE 802.11‐OCB网络的平均延迟将超过临界值。在这两种情况下,IEEE 802.11‐OCB网络在低密度场景(10个或更少的邻居)中能够实现比LTE网络更低的平均延迟。

示意图3

然而,随着密度增加,由于LTE网络具有先进的多播能力,其能够保持更加稳定的平均延迟。

在两种频率场景下,当引入决策树以利用异构网络时,系统在给定交通密度下的延迟略高于较快的网络。这是预期的行为,因为在理想情况下,使用决策系统的延迟值应为所有网络中的最小值,其中IEEE 802.11‐OCB用于短距离传输,LTE则作为扩展以实现数据传播的长距离覆盖。

碰撞通知消息的分组投递率(PDR)如图6所示。我们观察到,在低频情况下,IEEE 802.11‐OCB网络的表现优于其LTE对应网络。然而,随着信标频率的增加,LTE蜂窝网络的高容量特性使其能够在消息投递方面保持一致的性能,而自组织网络由于其基于竞争的特性,性能则有所下降。

在两种频率情况下,一旦达到15个邻居的阈值并开始联合网络使用,系统的数据包投递性能就会提升。对于2 Hz频率场景,使用提出的决策树实现了总分组投递率32 %的增长,而在10 Hz场景中则实现了42%的提升。分组投递性能提升与在100毫秒的临界阈值下,可到达的邻居数量的差异。

示意图4

最后,图7展示了使用仿真获得的时延与在第三节-A中介绍的分析模型计算出的时延之间的对比。我们观察到,仿真结果呈现出与分析模型相似的趋势。事实上,唯一的差异是时延略有增加(约2–3 ms),这可归因于决策树处理每个数据包所需的时间。因此,初步结果对于真实流量模型和仿真均可视为有效。在下一节中,将使用更现实的场景来测试该决策系统。

示意图5

联网车辆的网络多样性利用的自动化决策系统

C. 真实场景仿真

为了获得更真实的结果,采用了来自TAPAS科隆仿真场景[30]的实际城市交通数据。该仿真场景描述了德国科隆市一整天的交通情况。

使用此数据的优点是,项目仓库中已提供了SUMO配置文件,因此可以轻松地将其适配到当前考虑的应用中。缺点是在仿真的任何时间点都无法确定确切的密度,这意味着结果无法与第三节-B中所示的结果进行比较。然而,并不需要将整个网络作为一个场景进行仿真。由于我们的目标是在不同的网络条件下测试该系统,因此可以分别研究网络的不同部分,而每个部分都可以被视为一个不同的仿真场景(市中心、高速公路、郊区等)。分别研究每个场景还可以减少运行每个场景所需的计算时间和资源。

示意图6 所有网络规模。(b) 放大视图)

D. 仿真结果讨论

在本节中,从TAPAS中选取的三个独立仿真场景的结果被分别呈现并分析。此外,不同网络条件下的结果被汇总到单个图表中,并与初步结果进行了比较。与初步结果不同的是,在初步结果中研究了2赫兹和10赫兹两种信标频率场景,而本节仅关注10赫兹场景——这是欧洲电信标准协会(ETSI)和美国汽车工程师学会(SAE)标准中定义的大多数安全应用所采用的值。所有三个仿真场景均重复运行了30次,每种接入技术各运行10次。

E. 科隆市中心

图8(a)展示了市中心科隆场景下的结果。由于 802.11‐OCB在此条件下无法达到可接受的性能值,因此将重点分析决策树与LTE之间的性能表现。

图8(b) 显示,由于 LTE 具有更高的信道容量和更优的广播能力,选择使用 LTE 而非 802.11‐OCB 的决策占主导地位。这在高密度场景下是预料之中的。

尽管LTE和决策树的性能遵循相同的模式,但由于部分消息使用802.11‐OCB发送,决策树的延迟值更低(平均低8毫秒)。

F. 郊区科隆

图9显示了郊区/住宅科隆场景的结果。正如预期的那样,由于这是一个低密度场景,选择使用802.11而非 LTE占据主导地位,因为802.11‐OCB标准正是为短距离的低延迟/高吞吐量通信而设计的,并且邻居数量不足以使信道接入延迟成为决策中的重要因素。

需要注意的是,在此场景中,由于使用决策树进行决策计算会增加延迟,决策树的性能实际上平均比使用 802.11网络差2毫秒。然而,这种额外的延迟并不足以影响低密度场景下决策系统的性能。

示意图7

G. 混合区域科隆

图10展示了混合郊区/商业科隆场景的结果。正如预期的那样,由于该场景在仿真过程中包含低车辆密度和高车辆密度时段,决策树根据802.11和LTE各自网络的优势,相应地在这两种网络之间进行选择,以按需提升系统性能。

示意图8

H. 集成仿真结果

图11(a)显示了TAPAS科隆场景的完整制表结果。可以看出,决策树系统的行为与初步结果中获得的行为相似。在低密度场景下,决策树由于802.11的低延迟和高吞吐量能力而选择802.11。随后,随着车辆密度的增加,它选择 LTE以利用其多播功能。

与初步结果相比,可以观察到的主要区别是,当邻居数量约为50个邻居时,即使考虑到实际决策计算中的微小延迟,决策树的性能仍优于单个网络。这是因为当前的仿真采用了更真实的LTE基站(或eNBs)模型,该模型考虑了资源块(RB)的使用。

资源块(RB)是LTE基站中调度器可以分配给用户的最小资源单位。考虑到这一点,大多数LTE网络服务提供商使用10 MHz信道,因此仿真也假设LTE eNB采用10 MHz信道。根据3GPP规范,若每个传输时间间隔(1毫秒)内有100个资源块(RB)可用,且按照标准可分配给用户的最小资源为时域中的2个 RB,则即使eNB采用理想调度器,每个间隔最多只能调度50个用户,而这种理想调度器在商业上是不可行的。因此,在该密度值下,LTE网络性能必然会下降。

然而,当网络车辆密度值为50时,决策树能够通过使用802.11网络为部分车辆用户服务,从而应对LTE eNB的限制。这种响应克服了初步结果中显示的性能限制,在初步结果中,系统在每个点上的延迟均高于性能最佳的网络。随后,即使考虑到计算决策时的小幅延迟,该决策系统通过并行利用两种网络,最终其延迟性能超过了性能最佳的网络。

图11(b)显示了在完整的TAPAS科隆仿真场景中获得的PDR比率。正如预期,决策系统的性能优于单个网络,在性能上显著超过802.11和LTE。在这种情况下,决策系统相对于LTE网络的PDR优势约为39%,略低于图6所示的42%初步结果。需要记住的是,数据包投递率的提升与在100毫秒内能够到达的车辆用户数量的差异成正比。

最后,图11(c)显示了每个网络产生的平均数据包丢失。在此图中,也可以观察到在仿真中考虑LTE资源块所带来的差异。当网络达到约50个邻居的密度值时,LTE网络开始比之前丢失更少的数据包,但由于资源限制,其平均分组投递率保持不变,即由于eNB无法分配更多资源来服务所有用户,导致生成但从未发送的应用消息数量实际上增加了。

这些分析结果验证了决策系统方法在真实仿真场景中的有效性,该场景使用真实交通数据来测试多种网络条件,并采用更精确的数学/计算工具对网络中存在的不同实体进行建模。决策树系统已被证明能够通过利用其可用的多个网络,提升标准安全应用的性能。此外,采用决策系统方法不仅能够改善应用的延迟,还能提高吞吐量值,因为在100毫秒的关键时间阈值内可以触达更多用户。

示意图9

IV. 决策系统自动化

A. 决策树学习

在上一节中,通过理论分析和实际仿真结果验证了决策树的应用。我们使用通常被称为决策分析的方法,针对特定类别的应用手动设计了该树结构以构建一个集合应用生成的每种特定类型数据的if-else类型的规则。如果通信场景发生变化,或者需要纳入更多信息来做出决策,则有两种可能性:

1) 开发新树:例如,当应用家族发生变化时,可以采取此方法。在安全应用中,存在不同的类别,这些类别在需求和功能方面各不相同,因此应用家族的变化可能需要构建一棵全新的决策树。

2) 扩展现有树:该方法可用于将不同的通信场景整合到一棵树中。这需要开发更多规则,从而增加决策树的规模和复杂性。

这两种方法的问题在于,决策树必须手动构建。考虑到每类应用和每个不同的通信场景都有不同的需求,因此需要设计和实现大量不同的决策树,才能获得一个真正鲁棒且通用的决策系统。然而,尽管手动完成这项工作是不可行的,决策树方法已被证明能够通过提升应用性能来有效解决当前任务。因此,我们现在致力于自动化决策树方法,以创建一个更鲁棒且适应性更强的系统。

为了自动化决策树的生成过程,我们采用了一种称为决策树学习的机器学习方法。这种技术在数据挖掘领域中很常见[31],它使用决策树作为预测模型。决策树学习需要从带类别标签的训练元组中构建决策树,因此属于监督式机器学习技术。决策树是一种类似流程图的结构,其中每个内部(非叶)节点表示对某个特征(属性)的测试,每个分支代表一个测试结果(决策规则),而每个叶(或终端)节点表示一个结果(分类或数值)。生成(创建)树的过程包括决定选择哪些特征、采用何种条件进行分割以及何时停止。

本研究利用CART(分类与回归树)来构建决策树[32]。CART所采用的基尼不纯度度量旨在最小化分类错误,因此相较于其他算法,选择该算法可最小化系统选择错误网络的概率。

特征 类型 描述
消息类型 类别型 CAM, DENM, etc.
优先级 数值型 1-5
邻居数量 数值型 1-100
网络密度 数值型 低, 中, 高
信道拥塞 数值型 0%-100%
可用带宽 数值型 Mbps
传输方向 类别型 上行, 下行

表III 特征空间

这些特征是图12所示系统的输入。智能决策系统是分类器,消息在系统中可通过的不同网络(例如RAN1、RAN2和 RAN3)对应于消息的目标或类别,即分类器的输出。

与决策树类似,在此框架中不存在集式架构。每个用户都在车载单元(OBU)中安装了一个分类器实例。当生成一条消息时,该消息将由分类器进行处理。输出结果对应于该消息将通过的无线通信技术。由于分类器是离线训练的,因此训练延迟在我们的方案中并不相关;因此,唯一增加的延迟来自于通过分类器处理输入所花费的时间 $T_p$。

在确立了方法论之后,下一步是使用决策树学习来重新创建图3中手动构建的树。为此,我们创建了一个训练集,该训练集仅反映在真实协同感知通信场景中可能出现的特征值(数值型或类别型)。

为了生成该决策树,创建了一个包含10,000个样本的训练集。这包括创建特征向量本身及其对应的目标类别向量。图13展示了特征空间中样本的三维表示,该特征空间结合了数值型数据(例如邻居数量)和类别型值(例如消息类型)。同时处理这两种类型数据的能力是使用 CART最重要的优势之一。不同的标记类型表示每个样本的不同标签或目标类别。

决策树学习方法的一个缺点是在树构建过程中使用了贪心方法,通常无法保证返回最优的决策树。然而,通过训练多棵树,并对特征和样本进行有放回随机采样,可以缓解这一问题。

图14显示了使用CART创建的决策树,其结构与原始手动创建的树相似。事实上,生成的树的误分类误差低于 1%,这意味着不到1%的消息会通过错误的网络发送。该树在99%的情况下将与原始手动创建的树保持一致。

然而,这种极低的误差凸显了使用决策树学习的一个重要问题,即模型容易对训练集产生过拟合。在第一个示例中,这并不特别重要,因为生成的决策树旨在为单一应用类型工作。然而,本研究的目标之一是获得一种通用决策方法。因此,研究扩大训练集以涵盖不同应用场景和类型的影响非常重要。

创建了一个包含30,000个样本的训练集,以获得一个更具通用性的决策树。该训练集包含了三种不同协同感知应用的样本,这些应用具有相似的需求但运行模式不同。第一种应用是一种典型的V2X协同感知用例,其最小信标频率为10 赫兹;这与之前实验中使用的应用类型相同。第二种该应用基于一种事件触发的时间受限周期性广播通信模式;此类应用仅在特定事件被触发时发送信标,例如紧急制动灯亮起时。第三种应用是由车辆模式触发的周期ic广播,其最低信标频率为2赫兹。图15仅显示了使用CART(分类与回归树)创建的第二棵决策树的一个分支。使用决策树学习的主要缺点几乎可以立即观察到:生成的决策树在规模和复杂性上会随着训练集的增大而增加。

过拟合的问题在于它导致决策树无法很好地泛化数据。基本上,生长过深的树倾向于学习高度不规则的模式,从而导致其训练集过拟合,即偏差较低,但代价是方差非常高。因此,大规模决策树往往不稳定;数据中的微小变化可能导致生成完全不同的决策树。

在性能方面,生成的树模型的分类错误率约为10%;因此,最初大约有10%的消息会通过错误的网络传输。该数值相比初始树模型要高得多,这是预料之中的,因为初始模型仅针对一种类型的应用。然而,如前所述,此问题可通过使用有放回抽样训练多棵树来缓解,并将在下一节中加以解决。

本节的发现可以总结为四个关键点:(1)决策树具备作为决策系统构建模块所需的分类能力;(2)可以获得能够处理广义数据的自动化树;(3)为了获得一个完全自动化且广义化的系统,有必要提升决策树学习模型的性能;(4)最重要的是,我们已经证明可以使用机器学习来自动化决策树的创建过程。

B. 随机森林

决策树在异构车辆场景中作为决策者表现出强大的能力。然而,如前一节所示,其作为分类器的性能必须得到提升,才能获得一个完全自动化和广义化的系统。为实现这一目标,将采用一种称为随机森林(RF)的集成学习技术。

随机森林[33],[34]是一种监督学习算法,通过创建由随机决策树组成的森林,并属于集成学习方法。随机森林通过对训练集的不同部分训练的多个深度决策树进行平均,以降低方差[35]为目标。然而,降低方差的代价是偏差略有增加以及可解释性有所下降;但该方法通常能够提升最终模型的性能。

当前版本的随机森林由利奥·布雷曼开发[34],结合了特征的随机选择与其本人提出的袋装法[36](即自助聚合)思想。算法1展示了用于分类的随机森林算法的概要。袋装法是一个包含两个步骤的过程,涉及自助采样(步骤2)和聚合(步骤4)。通过该方法,生成多个预测器版本以获得一个聚合预测器。

这种技术组合使得模型能够在不增加偏差引起的误差的情况下限制过拟合。随着树的数量增加,森林发生过拟合的可能性降低。随机森林解决了上一节中提出的决策树学习的三个最重要问题(过拟合、方差和偏差)。这使其成为实现该目标的理想候选方案。

算法1: 分类随机森林算法。

  1. 生成随机森林(X, Y, N);
    输入: 训练集 X= x1,…, xn 的目标 Y= y1, . . . , yn
    输出: 具有 N决策的随机森林分类器 树
  2. 自助法训练: 在训练集上执行 N次自助法 通过有放回抽样。
    对于 n= 1,. . ., N 样本,进行有放回抽样以选择 m个训练集示例。生成的子集 Xn, Yn被称为自助样本
  3. 使用特征袋装法拟合树:
    使用特征的随机子集来执行CART(分类与回归树)过程并在每个集合上训练一个分类树 Tn Xn, Yn来自 n= 1,…, N
  4. 树袋装法:
    在训练完 N个决策树后,进行分类 通过多数投票执行。

C. 自动化系统性能

在分析最终结果之前,还需要介绍一个概念:袋外(OOB)误差。OOB允许测量使用袋装法来对训练中使用的子采样数据样本进行子采样的机器学习模型的预测误差。由于森林中的所有树都是使用训练集的一部分进行训练的,因此存在一组样本是每个单独的树从未见过的。这样的一组被称为袋外示例。这样的集合共有 N个(每棵生成的树对应一个)。袋外分类器仅基于不包含特定样本(xi, yi)的那些树的投票聚合而成。泛化误差的OOB估计值由袋外分类器在训练集上的错误率给出。这提供了实证证据,表明袋外估计的准确性与使用与训练集同规模的测试集相当[36]。

应用上述随机森林算法的概念,下一步是使用之前描述的相同科隆仿真场景对其进行测试,并将其性能与决策树进行比较。接下来,将完全训练的随机森林直接置入仿真器中,在消息生成时刻进行决策,以取代决策树。其余仿真参数保持不变,与前面的章节中描述的实验一致。

图16显示了在上一节分析的TAPAS科隆数据集上使用随机森林得到的袋外误差。我们可以观察到,随着生成的树数量增加,袋外误差减小。然而,这会带来更高的计算时间和资源消耗,因为需要生成和测试更多的树。当树的数量为10棵树时,袋外误差为1.2%(对于20棵树,误差分别为0.8%),表明随机森林算法与手动构建的树大约98.8%的时间一致(相应地为99.2%)。

图17(a)展示了随机森林与决策树的端到端延迟值之间的比较。该比较使用了具有10棵树的随机森林算法。我们观察到,这两种方法得到的结果仅在一个大约5毫秒的相对恒定值上有所不同。这5毫秒代表了通过聚合10棵树而不是仅使用一棵树来进行决策所需的计算时间。

图17(b)展示了随机森林与决策树在分组投递率上的对比,两者结果几乎相同。两者的差异约为0.8%,其中决策树略占优势。这微小的差异接近于袋外误差作为泛化误差估计所预测的值。

最后,图17(c)显示了网络中丢失数据包百分比的差异。在此,随机森林平均显示出约1%的轻微优势。然而,这些数值基本相同;鉴于延迟和分组投递率的结果非常相似,这是预料之中的。

我们得出结论:随机森林能够复制手动构建的决策树所获得的结果,同时具有无需手动构建分类器以及能够适应变化需求的优势。如果需要添加新的应用或网络条件发生突变,只需对分类器进行简单的重新训练,即可保持系统高性能运行。

平均端到端延迟。(b) 分组投递率。(c) 平均分组丢失)

V. 性能比较

在本节中,我们将随机森林(RF)的性能与最先进的相关研究成果(例如[11],[13],[14])进行比较。我们重点关注其他方法所使用的性能指标与我们系统中的指标(延迟和分组投递率)之间的相似性,以确定哪些研究可与我们提出方案进行对比。基于此,我们未将[11]和[14]视为适合比较的对象,因为它们采用了不同且不可比的指标。在Ucar 等[13]的研究中,使用了分组投递率(PDR)和平均延迟(以及其他指标)来衡量基于簇的IEEE 802.11p和LTE混合架构在消息传播方面的性能。该架构基于选择网关车辆(即簇头),由这些车辆将所有簇成员的数据转发(卸载)至蜂窝网络。我们复现了[13]中分析的场景,将其中提出的 VMaSC方法(单跳变体)替换为我们自己的决策系统,以生成一对一比较。值得注意的是,VMaSC优于大多数其他经典的车载自组织网络多跳混合架构算法,如 NHOP[37]和MDAC[38]。

该场景包含一条五公里双车道双向道路。车辆按照每秒两辆车的速率通过泊松过程被注入到道路上。车辆的最大可变速度范围为10至35 m/s。因此,在不同时间、不同场景下,任意车辆的平均邻居数量在10到18之间变化。

由于通信场景与我们用于训练和评估随机森林方案的场景相似,因此我们未对前一节中所示的分类器进行任何额外调整。

图18(a)展示了使用VMaSC和我们的决策系统获得的分组投递率之间的比较。在速度达到32米/秒时,我们的决策系统具有轻微优势。超过此速度后,VMaSC略优于我们的系统。

图18(b)展示了VMaSC与决策系统在车辆密度方面的分组投递率比较。在此比较中,决策系统优于VMaSC,这一结果是预期之中的,因为我们的方法将邻居数量作为决策系统的特征之一。

最后,图18(c)展示了VMaSC与决策系统在车辆最大速度下的端到-end延迟比较。在此比较中,随着最大速度的增加,两种方法均保持了相对稳定的性能。然而,使用 VMaSC的网络平均延迟超过了安全应用所需的100毫秒关键阈值(该算法的两跳和三跳变体也同样如此)。我们的决策系统在所有测试速度下的平均延迟均低于该值。

值得注意的是,当车辆之间的跳数大于一时,VMaSC 的表现更佳,尤其是在分组投递率方面。然而,我们方案的一个关键优势在于它可以被集成到其他方案中。事实上,基于决策的系统对车辆是否可以处于簇内或任何其他类型的编队机制没有任何限制。此外,我们的方案并不局限于在整个网络中使用单一决策者(分类器)。系统内可以使用多个随机森林,例如一个用于簇头,另一个用于其余车辆。此外,聚类信息甚至可以作为特征纳入随机森林的训练中。因此,我们的方法论有可能与其他混合架构(如VMaSC)集成,通过结合它们的优势与我们的分类器方法,从而在性能上实现更大的提升。

最后值得一提的是,我们的方法论可以轻松集成到基于软件定义网络的架构[39]中。事实上,拥有集中式控制器架构意味着我们可以将分类器部署到车辆中。此外,每当需要更新分类器时,可以在云端进行训练,以避免给消息传播增加开销和额外延迟。然后,通过使用如[40]中提出的方案,可以利用软件定义网络架构将更新后的分类器分发给网络中的车辆。

分组投递率 vs 最大车速。(b) 分组投递率 vs 车辆密度。(c) 平均分组延迟 vs 最大车速)

VI. 结论

在本研究中,我们提出了一种方法论,用于提升部署在车载网络上的安全应用的性能。我们的方案利用车载自组织网络中存在的固有网络多样性,构建一个决策系统,该系统在消息生成时刻综合考虑网络状况(如延迟、信道拥塞和容量)以及应用需求(如最大可容忍延迟和消息交换速率),以选择当前最佳可用网络。

决策系统的首次实现采用了决策树的形式。在真实交通场景下对其性能的研究证实了初步分析和仿真的结果。通过利用每个网络的能力,该决策系统能够降低延迟并提升吞吐量。随后,使用随机森林算法这一自动化分类器来复现手动构建的决策树的性能。该自动化系统的优势在于能够适应不同的应用需求,而无需为每个应用手动构建新树。将我们的自动化决策系统与另一个使用相同指标的混合架构(VMaSC)进行性能指标比较后发现,在延迟、按车辆密度划分的分组投递率以及最高达115 km/h速度下的分组投递率方面,我们的方法优于大多数基于聚类的混合方案。

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

【四轴飞行器】非线性三自由度四轴飞行器模拟器研究(Matlab代码实现)内容概要:本文围绕非线性三自由度四轴飞行器模拟器的研究展开,重点介绍了基于Matlab的建模与仿真方法。通过对四轴飞行器的动力学特性进行分析,构建了非线性状态空间模型,并实现了姿态与位置的动态模拟。研究涵盖了飞行器运动方程的建立、控制系统设计及数值仿真验证等环节,突出非线性系统的精确建模与仿真优势,有助于深入理解飞行器在复杂工况下的行为特征。此外,文中还提到了多种配套技术如PID控制、状态估计与路径规划等,展示了Matlab在航空航天仿真中的综合应用能力。; 适合人群:具备一定自动控制理论基础和Matlab编程能力的高校学生、科研人员及从事无人机系统开发的工程技术人员,尤其适合研究生及以上层次的研究者。; 使用场景及目标:①用于四轴飞行器控制系统的设计与验证,支持算法快速原型开发;②作为教学工具帮助理解非线性动力学系统建模与仿真过程;③支撑科研项目中对飞行器姿态控制、轨迹跟踪等问题的深入研究; 阅读建议:建议读者结合文中提供的Matlab代码进行实践操作,重点关注动力学建模与控制模块的实现细节,同时可延伸学习文档中提及的PID控制、状态估计等相关技术内容,以全面提升系统仿真与分析能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值