具有拥塞感知无线节点的低功耗WiNoC设计
1. 引言
作为一种新型通信架构,片上网络(NoC)已引起广泛关注,并逐渐成为多核处理器中一种有前景的范式。然而,随着越来越多的处理器核被集成到芯片中,通信电路、系统与计算机杂志 第27卷 第9期 (2018) 1850148(18页)#c.世界科学¯出版社 DOI: 10.1142/S0218126618501487
多跳节点之间的延迟也随之增加,从而极大地限制了网络性能。3,4根据国际半导体技术路线图(ITRS),5互连延迟是未来集成电路设计中的关键问题之一。
几种新型互连技术,如三维(3D)、光网络芯片(ONoC)和射频网络芯片 (RF NoC),被提出以解决性能瓶颈问题。6 3D NoC 已被提出用于提高片上集成度,通过将芯片垂直堆叠,可大幅缩短处理器核之间的通信距离。7光网络芯片 (ONoC)和射频网络芯片(RF NoC)因其优异的特性(如高带宽和低电磁干扰) 而表现出色。8,9然而,这三种技术面临着诸多挑战,例如复杂性、热管理和功耗预算要求。¯
无线片上网络(WiNoC)是一种新兴的互连范式,旨在减少多跳节点之间的 通信延迟。6在WiNoC中,远距离节点之间的数据包通过无线链路传输,显著降低了传输延迟。此外,WiNoC与现有的CMOS工艺兼容,便于实现片上集成。然而,WiNoC也面临一些挑战,例如网络拥塞。无线路由器(WR)负责转发短距离和长距离数据包。显然,大量数据包将涌入WR,容易引发节点拥塞并形成网络热点。10此外,功耗是整个系统的另一个重要问题。11与传统有线路由器相比,由于增加了无线接口(WI),WR的功耗更大。12因此,解决上述问题对于提升WiNoC性能至关重要。
本文其余部分组织如下。第2节介绍WiNoC的相关工作。第3节介绍传统的 (WR)架构及问题分析。所提出的架构和方案在第4节中描述。实验及评估结果 在第5节中给出。第6节对全文进行总结。
2. 相关工作
一种非相干开–关键控(OOK)无线收发器架构在文献13中进行了描述。它指出,利用当前的微电子工艺,锯齿状天线和无线接口可以集成在芯片上,为无线片上网络研究提供了技术支持。Ganguly 等14提出了一种名为小世界的WiNoC互连方案,其中整个网络被划分为多个子网。处理器核通过直连链路连接到中心集线器,且所有子网的集线器通过二级网络互连,构成一个分层网络。基于有线/无线拓扑,Wang 等15设计了一种名为NePA的无线片上网络拓扑,通过设置双向数据通道可提高网络吞吐量。基于毫米波技术,一种名为mWNoC的无线片上网络是
Y. Ouyang et al.
在参考文献 16中设计。通过高效的±路由算法和无线路由器的优化布置,网络性能得到了极大提升。
针对WiNoC中的拥塞问题,已提出了一些解决方案。Wang等17设计了一种 基于反馈的端到端拥塞控制方案。源节点在接收到反馈消息后,将自适应地调整其数据包大小和传输速率。在文献12中,提出了一种基于p‐持续载波侦听多路访问 (CSMA)的通信机制。每个WI在传输数据前进行信道监测。当信道空闲时,以 p‐概率发送数据,在一定程度上减少了拥塞和链路冲突。在文献18中,提出了一种 基于无线多跳的两级混合无线片上网络(2LHM‐WiNoC)。通过使用WFXY路由 算法,可以缓解网络拥塞。Zhao等19设计了一种名为SD‐MAC的分布式介质访问 控制协议。SD‐MAC专为WiNoC定制,采用二进制倒计时方法来解决无线节点之间的信道冲突。基于预测需求,Mansoor等20提出了一种MAC协议,可根据 WI的实时需求动态分配令牌和链路带宽。这些机制在减轻网络拥塞方面是有效的, 但忽略了WI内部的拥塞。如果WI本身发生拥塞,也会导致丢包并降低网络性能。
本文设计了一种具有拥塞感知无线节点的低功耗WiNoC。本文的主要贡献包括以下几点: (1) 我们设计了一种新颖的无线接口(WI),能够动态感知拥塞程度和目的地址 信息;(2) 我们提出了一种拥塞判别机制,用于确定无线接口(WI)的拥塞状态。所提出的算法将通信优先级最高的无线路由器(WR)设置为优先占用无线信道资源,从而减少网络拥塞。我们还提出了一种功率控制机制,用于关闭未能竞争到 无线信道资源的无线接口(WI),以降低功耗。(3) 我们进行了大量实验,评估 所提出的方案在不同流量模式下相较于其他新兴方案的性能。实验结果表明,与其他方案相比,所提出的方案在传输延迟、吞吐量和功耗方面均能提供显著更好性能。
3. 无线路由器架构和问题分析
在本节中,我们首先介绍传统片上无线路由器的架构。然后,我们详细分析无线片上网络的拥塞问题和功耗。
3.1. 传统片上无线路由器架构
传统的无线路由器(WR)主要由有线路由器的基本架构和无线接口(WI)组成。其详细架构如图1所示,主要由六个模块21:包含多个虚拟通道(VC)的输入缓冲区、路由计算(RC)单元、虚拟通道分配器(VA)、交换仲裁(SA)、交叉开关和无线接口(WI)。WI由无线发射机(TX)和无线接收机(RX)组成。TX包括发射端数据缓冲区(TDB)、串行器、调制器和功率放大器(PA),其中TDB用于存储通过WI发送的数据;串行器用于将数据包串行化;调制器可将低频信号调制为更适合传输的高频信号; PA则放大无线信号的发射功率,以满足片上无线传输需求。类似地,RX由低噪声放大器(LNA)、解调器、解串器和接收端数据缓冲区(RDB)组成。为确保 WiNoC的高吞吐量和高能效,片上天线必须具备宽带宽和低功耗特性。本文采用之字形片上天线,具有较长的传输距离、高增益和强抗干扰特性。13
3.2. 拥塞问题分析
WiNoC中的无线拥塞可分为两类。第一类是无线链路级拥塞。由于基于毫米波技术的WiNoC中的无线信道是共享信道,在同一时钟周期内只有一对无线节点可以相互通信。当多个节点同时竞争无线信道时,容易产生访问冲突,导致链路级拥塞,从而降低链路利用率和网络吞吐量。
第二类是无线节点级拥塞。当无线接口(WI)缓冲区达到临界溢出状态时,后续数据将导致数据溢出和丢包。作为无线片上网络(WiNoC)的重要组成部分,无线路由器(WR)不仅要负责转发短距离数据包,还要传输长距离数据包。大量数据包可能涌入无线路由器,从而引发网络拥塞和热热点。针对这一问题,本文构建了一种拥塞模型,该模型使用无线接口的缓冲区深度 来表征拥塞程度。 越高,拥塞程度越高;反之亦然。该模型如下所示
$$
¼ Nflit Dbuffer
; ð1Þ
$$
其中,Nflit表示已存储在WI缓冲区中的比特数,Dbuffer表示缓冲区的深度。由于WI中 TDB和RDB的深度相同,我们使用缓冲区中存储的比特数来表征WI中的拥塞程度。
3.3. 功耗分析
在无线片上网络中,路由器功耗占总功耗的很大比例。路由器功耗分为有线路由器功耗 PBR 和无线路由器功耗 PWR。PWR由有线路由器功耗 PBR 和无线接口功耗 PWI 组成,且 PWI 在 PWR 中占很大比例。22,23可用以下公式表示:
$$
PWR ¼ PBR þ PWI: ð2Þ
$$
WI的功耗PWI由发送端功耗PTX和接收端功耗PRX组成,可表示为
$$
PWI ¼ PTX þ PRX: ð3Þ
$$
基于毫米波技术的无线片上网络采用广播通信机制,即源节点将数据广播到其他无线节点,经过地址信号验证后,仅源无线路由器的发送端和目的无线路由器的接收端占用无线链路。其余的发送端和接收端处于空闲状态,其静态功耗分别为 PTS 和 PRS,在PWI中占较大比例。对于包含n个无线路由器的网络,在一个时钟周期内,全局无线路由器功耗PAWR可表示如下:
$$
PAWR ¼ nPBR þ PTX þ PRX þ X
n1
i¼1
ðPTSi þ PRSiÞ: ð4Þ
$$
通过上述分析,我们提出了一种睡眠控制机制,该机制可动态关闭空闲的收发器,从而降低功耗。详细描述将在第4.2.3节中给出。
4. 拥塞感知无线节点的低功耗WiNoC设计
在本节中,我们首先介绍无线片上网络拓扑。随后,我们展示了所提出的无线路由器的详细设计,包括拥塞感知单元、拥塞判断单元(CJU)和睡眠控制单元( SCU)。为了更好地说明该方案,最后我们通过一个示例进行说明。
4.1. 无线片上网络拓扑
图 2展示了分层混合无线网络拓扑。本文中,整个网络被划分为四个 5 × 5子网。连接所有无线路由器的(CJU)位于网络中心。无线路由器的最优位置可通过模拟退火算法确定。24我们将路由器的坐标设为(x, y),其中 x和 y坐标分别表示路由器的横坐标和纵坐标。例如,图 2中无线路由器的坐标分别为( 3, 3)、(3, 3)、( 3, 3)、(3, 3)。
4.2. 结构的详细设计
与图1所示的传统片上无线路由器相比,我们改进了传统无线路由器的无线接口,以缓解无线节点的拥塞程度并降低功耗。如图3所示,在无线接口中增加了包括位计数单元(FCU)、地址解析单元(ARU)和SCU在内的阴影部分单元。此外,如图2所示,我们在全局网络中心放置了一个CJU。
在所提出的方案中,WI中的FCU和ARU构成了拥塞感知单元,该单元与网络拓扑中的CJU相连。CJU还与WI内部的SCU相连,从而形成一个完整的互连结构。示意图如图4所示。
4.2.1. 拥塞感知单元描述
如图 4 所示,拥塞感知单元由FCU和地址寄存器单元组成。地址寄存器单元用于解析下一个时钟周期发送的数据位(数据位n)的目的地址,并将地址信号addr发送至CJU。如图 5 所示,对于无线接口中的FIFO缓冲区,在当前周期内,当发送端正在发送数据位0 ,时,地址寄存器单元分析
4.2.2. CJU的详细设计
通过来自上层单元的地址信号addr和数据位数信息计数器t/r,CJU通过算法分析确定最优的无线通信节点对。如图6所示,CJU由读/写单元(RWU)、拥塞表(CT)、算法单元(AU)、信号生成单元(SGU)和解码器组成。
RWU从FCU和ARU读取数据位数量计数器t/r以及地址信号addr,然后将这些信息写入CT。CT的格式如图7所示。Addrs列表示源无线路由器TDB中存储的数据位数量,Addrd列表示数据位n的目的无线路由器RDB中存储的数据位数量。例如,对于WR0,,TDB中的数据位数量为T0 ¼ 15,数据位n的目的无线路由器 RDB中的数据位数量为R0 ¼ 9。CT的值在每个时钟周期更新。
AU是算法单元。对于源节点WR,T值越大,缓冲区占用率越高,缓冲区的空闲空间越低。如果本地数据继续写入TDB,将导致数据溢出和节点拥塞。如果 TDB中的数据未能及时读取并发送,将会造成更严重的拥塞并影响网络性能。同样,对于目的节点,R值越大,缓冲区占用率越高。如果继续接收无线数据,数据可能会溢出并导致丢包。通过上述分析,我们建立了一个拥塞判断算法,如算法1所示。
(1) 如果 B − Ri ¼ 0,表示 RX 中 RDB 的占用率为 100%,无额外空间写入更多比特,源路由器被设置为禁用数据传输状态。
(2) 如果 B − Ri > ∆,表示接收端中RDB的占用率较低,有足够的空间通过无线传输接收更多比特。在这种情况下,具有最大Ti值的源路由器被设置为最高传输优先级,即该源路由器及其目的路由器为最高优先级的通信对。符号 ∆ 用于表示拥塞阈值,最优的 ∆ 可通过实验获得。
(3) 如果 0 < B − Ri < ∆,则将Ci值最大的源路由器设为最高传输优先级,即该源路由器及其目的路由器为最高优先级的通信对。
该机制综合考虑了源无线路由器和目的无线路由器的拥塞状态。通过将拥塞程度最小的通信对设置为最高优先级,能够有效预防和缓解拥塞。此外,阈值∆对网络性能具有重要影响,最优的 ∆ 值可通过仿真实验确定。本文中,缓冲区深度B被定义为20。如图7所示,若我们将∆值设为5,则对于WR1,而言,其R1值为20,意味着其目的无线路由器的RDB已满,该机制将使能WR1传输数据。对于 WR0和WR3,,(B − R)值均大于5且T0 > T3。该机制将WR0及其目的无线路由器设置为最高通信优先级。根据算法分析,信号生成单元生成相应的两位控制信号并发送给解码器,从而选择对应的无线路由器传输无线数据包。对于其余的无线接口,设计了一种睡眠策略以提高网络的能量效率。细节将在下一节中描述。
4.2.3. SCU的详细设计
众所周知,能效对于整个芯片系统至关重要。同样,降低无线接口(WI)的功耗对于WiNoC的整体能效也十分必要,而功率放大器(PA)和低噪声放大器(LNA)在WI的功耗中占比较大。本文设计了一种功率控制机制,用于动态关闭 WI中空闲的PA和LNA。在毫米波WiNoC中,具有最高通信优先级的源无线路由器(WR)将在下一个时钟周期发送数据包,此时发送端(TX)处于正常通信状态,而接收端(RX)处于空闲状态,SCU将关闭RX中的LNA。类似地,目的无线路由器将在下一个时钟周期接收数据包,该机制将关闭TX中的PA。此外,其余无线路由器中的空闲PA和LNA也将全部被关闭。
根据之前的分析,CJU中的算法单元确定了具有最高通信优先级的无线收发器对。如图8所示,解码器r和解码器t分别将来自信号生成单元的两位控制信号解码为四位的ack_t和四位的ack_r信号,并将这些信号加载到相应的SCU。SCU作为睡眠策略的实现单元,当接收到解码器发出的低电平信号时,会开启对应的PA或LNA;当接收到高电平信号时,则会关闭对应的PA或LNA。如第4.2.2节示例所示,如果WR0具有最高传输优先级且目的节点是WR1, ,则CJU向解码器t发送信号t 00,经解码后生成四位信号0111。随后,该0111信号被加载至SCU,通过off_t控制线启用WR0中的PA,同时关闭其他空闲无线路由器中的其余PA。关闭空闲LNA的方案类似。如图9所示,WI1,、WI2,、WI3中的PA以及WI0,、WI2和WI3中的LNA均处于睡眠模式,而WI0中的PA和WI1中的LNA则处于正常通信模式。该系统通过功率控制机制实现了较高的能量效率。
4.3. 示例分析
图10中所示示例能更好地说明该算法。网络拓扑中的四个无线路由器可形成总共12条无线链路。CJU动态感知四个无线接口的拥塞信息和目的地址信息,并通过算法分析确定最高优先级的通信对。如果算法分析判断源路由器WR3及其目的路由器WR0具有最高通信优先级,则WR3和WR0建立正常无线链路以传输数据,其他无线链路则不启用。
5. 实验结果与分析
为了展示路由器的性能及其在VLSI实现中的可行性,本节将所提出的方案与其他三个方案进行性能和开销评估,包括传统的二维(2D)网格有线片上网络、文献17中提出的基于反馈的端到端无线片上网络以及文献18中提出的2LHM‐WiNoC。
5.1. 网络性能
为了评估所提出的无线片上网络的性能,采用基于SystemC的周期精确无线片上网络模拟器Noxim来构建我们的平台。28为了确保实验结果的公平性和真实性,网络规模、traffic模式和其他实验参数均保持一致。所有仿真均运行10,000个周期,其中前1,000个时钟周期用于系统预热以达到相对稳定的状态。仿真环境如表1所示。
| 设置 | 参数 |
|---|---|
| Wire 无线 方案 | 二维网格 参考文献 17 参考文献 18 所提出的 |
| 网络规模 | 100核 , 4个子网 |
| 无线技术 | 毫米波 |
| WI缓冲区大小 | 20位 |
| 流控单元长度 | 32位 |
| 数据包大小 | 10位 |
| 仿真周期 | 10,000个周期 |
| 时钟频率 | 1吉赫兹 |
| 天线频率 | 32吉赫兹 |
图11显示了在 10 × 10网络规模下,不同流量模式中2D‐网格网络与所提出的网络的平均跳数。在均匀模式下,所提出的方案的平均跳数比2D‐网格网络低30.1%,在热点模式下比2D‐网格网络低25.3%。这是因为我们使用无线链路在远距离节点之间传输数据,从而减少了平均跳数。无线链路对于减少跳数至关重要,特别是在两个远距离处理器核之间的传输中。该实验充分反映了WiNoC在降低平均传输跳数方面的优势。
本文中,拥塞阈值 ∆ 对网络性能有重大影响。图12是在均匀模式和热点模式下,∆值取不同数值时的平均延迟比较。从图12(a)可以看出,在均匀模式下,平均延迟随注入率的增加而增加。当∆ ¼ 1时,平均传输延迟最大。这是因为较低的阈值可能导致较高的缓冲区占用率,从而导致延迟增加。图12(b)显示了 ∆取不同值时的平均延迟比较。
(a) 均匀
(b) 热点
图13显示了在不同流量模式下,当∆取不同值时的吞吐量比较。从图13(a)中可以看出,当∆不同时,网络吞吐量随着注入率的增加而上升。当∆ ¼ 5时,网络吞吐量最高;当∆ ¼ 1时,网络吞吐量最低。由此可得,∆ ¼ 5是合适的阈值。图13(b)显示了热点模式下的吞吐量比较。在注入率相同的情况下,热点模式下的网络吞吐量低于均匀模式,且当∆ ¼ 1时,网络吞吐量最低。
(a) 均匀分布
(b) 热点
图14(a)显示了不同方案在均匀流量模式下的延迟比较。起初,所有方案的平均延迟相似。但随着注入率的增加,实验结果出现巨大差异。当注入率为0.2 °it/node/周期时,所提出的方案的平均延迟为23.32周期,比其他三个方案低14.8%到26.32%。二维网格的平均延迟最大,这是因为二维网格在远距离节点之间需要多跳传输,导致网络延迟增加。所提出的 WiNoC架构在远距离节点之间采用单跳传输,并动态选择拥塞最低的无线收发器对进行数据传输。特别是当注入率增加时,优势更加明显。图14(b)显示了热点模式下不同分组注入率的延迟比较。当注入率为0.1 °it/node/周期时,该方案的平均延迟为26.05周期,比其他方案低8.9%到31.68%。
(a) 均匀分布
(b) 热点分布
图15(a) 显示了不同方案在均匀模式下的吞吐量比较。可以看出,随着注入率的增加,四种方案的吞吐量均上升。当注入率为0.2 °it/node/周期时,所提出的方案的吞吐量为0.18 °it/node/周期,比其他方案高出3.74% 至20.34%。WiNoC 吞吐量通常大于2D‐Mesh 网络吞吐量,这是由于无线链路充当了数据传输“高速公路”,在一定程度上缓解了网络拥塞并提高了吞吐量。由于采用了拥塞感知策略,所提出的方案性能优于其他WiNoC 网络,并且随着注入率的增加,其优势越来越明显。图15(b) 显示了热点模式下的吞吐量比较。当注入率为0.125 °it/node/周期时,所提出的方案吞吐量为0.11 °it/node/周期,比其他三个方案高出0.9% 至24.78%。
(a) 均匀分布
(b) 热点
5.2. 面积和功耗
不同方案的物理设计已使用Synopsys Design Compiler针对65纳米技术实现。在无线通信方面,选择0.38毫米长的锯齿状天线以在0.19毫米²面积开销下实现16 GB/s的3 dB带宽。13,29表2显示了不同方案在 10 × 10网络中的面积和功耗。
| 不同方案 | 有线路由器 (μm²) | WR附加 (μm²) | WI (μm²) | CJU (μm²) | WR功耗(毫瓦) |
|---|---|---|---|---|---|
| 二维网格 | 49,762 | – | – | – | – |
| 参考文献17 | 50,431 | 71,362 | – | – | 79.26 |
| 参考文献18 | 49,762 | 70,957 | – | – | 76.31 |
| 所提出的 | 49,762 | 60,241 | 5,177 | 50,374 | 62.93 |
对于有线路由器,尽管不同方案之间存在差异,但面积开销彼此之间并无显著差别。就无线路由器面积开销(不包括无线接口)而言,在二维网格中未放置无线路由器。所提出的无线路由器具有五个输入端口,而参考文献17和18中的无线路由器具有九个输入端口,因此所提出的方案面积开销最低。本文将拥塞感知单元置于无线接口中,该无线接口面积开销比其他方案大5177 μm²。与其它无线片上网络架构相比,所提出的 WiNoC架构在全局网络中增加了CJU,CJU的面积开销为50374 μm²。然而,考虑到整个网络包含数百个路由器及其他处理单元,CJU增加的面积开销可忽略不计。
在无线路由器功耗方面,由于采用了睡眠策略,所提出的无线路由器功耗为62.93 毫瓦,比参考文献17低约20.60%,比参考文献18低17.53%。
6. 结论
随着集成电路技术的发展,无线片上网络(WiNoC)逐渐成为研究的焦点。本文设计了一种具有拥塞感知无线节点的低功耗WiNoC。在无线接口(WI)中增加了拥塞感知单元,用于动态感知每个无线节点的拥塞信息和目的地址信息。全局网络中的CJU可以将拥塞程度最低的无线节点对设置为最高通信优先级。此外,对于竞争无线信道失败的WI,执行睡眠机制。实验结果表明,与其他方案相比,所提出的方案在传输延迟、吞吐量和功耗方面具有显著更好性能。
29

被折叠的 条评论
为什么被折叠?



