1. Versal 自适应 SoCs简介
AMD Versal™自适应SoCs将标量引擎、自适应引擎和AI Engine 与领先的内存和接口技术相结合,为任何应用提供强大的异构加速功能。硬件和软件的目标是由数据科学家和软件和硬件开发人员进行编程和优化。设备由大量工具、软件、库、IP、中间件和框架支持,以支持所有行业标准设计流程。
Versal产品系列基于TSMC 7 nm FinFET工艺技术,是第一个将软件可编程性和特定领域硬件加速与适应性相结合的产品,从而能满足当今快速创新的需要。该产品组合包括六个系列的设备,这些设备经过独特的架构,可为不同市场的大量应用提供可扩展性和AI推理功能,从云到网络到无线通信,再到边缘计算和端点。
Versal架构将不同的引擎类型与丰富的连接和通信能力以及可编程片上网络(NoC)相结合,以实现对设备全高度和全宽度的无缝内存映射访问。智能引擎是用于自适应推理和高级信号处理计算的SIMD VLIW AI Engine,以及用于定点、浮点和复杂MAC操作的DSP引擎。自适应引擎是可编程逻辑块和内存的组合,专为高计算密度而设计。标量引擎使用Arm® Cortex®-A72和Cortex-R5F处理器,支持密集型计算任务。
Versal AI Edge系列专注于自动化驱动、预测性工厂和医疗保健系统、航空航天和国防领域的多任务有效载荷以及其他广泛应用中的实时系统的AI性能功耗比。Versal AI Edge系列不仅能加速从传感器到AI再到实时控制的整个应用,所有这些都具有最高级别的安全性,以满足ISO 26262和IEC 61508等关键标准。
Versal AI Core系列通过AI Engine提供突破性的AI推理加速,专为广泛的应用程序而设计,包括用于动态工作负载的云和用于大带宽的网络,同时提供高级安全功能。人工智能和数据科学家以及软件和硬件开发人员都可以利用高计算密度来加速任何应用程序的性能。
Versal Prime系列是Versal产品组合的基础和中端产品,可在多个市场上提供最广泛的用途。这些应用包括100 G至200 G网络设备、数据中心的网络和存储加速、通信测试设备、广播以及航空航天和国防。该系列集成了主流58G收发器和优化的I/O和DDR连接,可在各种工作负载中实现低延迟加速和性能。
Versal Premium系列在一个适应性强的平台中提供了突破性的异构集成、极高性能的计算、连接性和安全性,并将功耗和占地面积降至最低。该系列旨在满足有线通信、数据中心、测试和测量以及其他应用中的高带宽、计算密集型应用的需求。Versal Premium系列包括112 G PAM 4收发器和集成模块,适用于600 G以太网、600 G因特拉肯、PCI Express® Gen 5和高速加密技术。
Versal HBM系列实现了快速存储、适应性计算和安全连接的融合。该系列的架构旨在满足计算密集型、内存密集型应用程序的更高内存需求,为数据中心、有线网络、测试和测量以及航空航天和国防应用提供自适应加速。Versal HBM系列集成了最先进的HBM2 e DRAM,在单个设备中提供高存储带宽和容量。
Versal架构文档套件可在https://www.xilinx.com/versal上获得。
2. AI Engine阵列特点
一些Versal自适应SoC包括由AI Engine tiles阵列组成的AI Engine 阵列以及由片上网络(NoC)和可编程逻辑(PL)tiles组成的AI Engine阵列接口。下面列出了每一个的功能。
(1) AI Engine tile的特点:
·是一个在可编程逻辑(OL)之外单独的构建块,集成到硅中
·一个 AI Engine集成了高性能超长指令字(VLIW)单指令多数据(SIMD)向量处理器,针对信号处理和机器学习应用等多种应用进行了优化
·八组单端口数据存储器,总计32 KB
·流式互连,用于确定性吞吐量,AI Engine和/或Versal设备中的可编程逻辑之间的高速数据流
·AI Engine tile中的直接内存访问(DMA)将数据从传入流移动到本地内存,并从本地内存移动到传出流
·配置互连(通过内存映射的AXI4接口),具有共享的基于事务的交换互连,用于从外部主机访问内部AI Engine模块
·硬件同步原语(例如,锁)提供AI Engine的同步、AI Engine 与区块DMA之间的同步以及AI Engine与外部主机之间的同步(通过内存映射的AXI4接口)
·跟踪、跟踪和配置文件功能
(2)AI Engine 阵列与NoC和PL资源的接口:
·AI Engine 阵列接口NoC切片中的直接内存访问(DMA)管理传入和传出的内存映射,并将流量流入和流出AI Engine阵列
·配置和控制互连功能(通过存储器映射的AXI4接口)
·利用AI Engine tile流互连功能的流互连
·AIEngine 到可编程逻辑(PL)接口,提供AI Engine 时钟和PL时钟之间的异步时钟域交叉
·AI Engine 到NoC接口逻辑到NoC主单元(NMU)和NoC从单元(NSU)组件
·硬件同步原语(例如,锁)利用AI Engine tile 锁模块中的功能
·利用AI Engine tile中的所有功能的查询、跟踪和配置文件功能
3. AI Engine 阵列概述
下图显示了内置AI Engine阵列的Versal自适应SoC的高级框图。该器件由处理器系统(PS)、可编程逻辑(PL)和AI Engine阵列组成。
AI Engine数组是AI Engine架构的顶级层次结构。它集成了一个AI Engine tile的二维数组。每个AI Engine tile都集成了超长指令字(VLIW)处理器、集成内存和用于流传输、配置和调试的互连。AI Engine阵列接口使AI Engine能够通过NoC与Versal设备的其余部分通信,或直接与PL通信。AI Engine阵列还通过NoC与处理系统(PS)和平台管理控制器(PMC)接口。
4. AI Engine 阵列层级架构
AI Engine阵列由AI Engine tile和AI Engine阵列接口tile(阵列的最后一行)组成。接口瓦片的类型包括AI Engine 到PL和AI Engine到NoC接口tile。每个AI Engine阵列中也只有一个配置接口模块,其中包含用于AI Engine时钟生成和其他全局控制功能的PLL。下图显示了与AI Engine阵列关联的完整的tile层次结构的概念视图。
5. AI Engine应用
下一代无线、机器学习和其他计算密集型应用的需求呈非线性增长,这推动了AMD Versal™自适应SoC AI Engine的开发。AI Engine、双核Arm® Cortex®-A72和Cortex-R5F处理器(PS)以及下一代可编程逻辑(PL)都与高带宽NoC结合在一起,形成自适应SoC中的新架构。AI Engine和PL旨在相互补充,以处理与其优势相匹配的功能。Versal自适应SoC AI Engine具有自定义存储器层次结构、AI互连上的多播流功能以及AI优化的向量指令支持,可针对各种计算密集型应用进行优化,例如,支持所有经典无线电功能以及宽带/多频带功能的高级无线电系统、5G无线通信、(无需使用基于矢量DSP的ASIC),以及通过在可接受的性能下实现确定性延迟和低神经网络延迟,在数据中心应用中实现机器学习推理加速。
6. 性能
AI Engine阵列具有用于所有tile和阵列接口模块的单个时钟域。AI Engine阵列用于-1L速度级器件的性能目标为1 GHz,VCCINT为0.70 V。此外,AI Engine阵列具有用于与其他块接口的时钟。下表总结了AI Engine阵列中的各种时钟及其性能目标。
7. 内存错误处理
每个AI Engine都有32 KB的数据存储器和16 KB的程序存储器。对于具有许多AI Engine tile的设备,需要并提供针对软错误的保护。程序存储器中的128位字受两个8位ECC保护(每个64位一个)。8位ECC可以检测64位字内的2位错误并检测/纠正1位错误。两个64位数据和两个8位ECC字段各自在其自己的对(距离为2)内交织以创建更大的位间隔。每个数据存储模块中有八个存储体。前两个存储体对四个32位字段中的每一个具有7位ECC保护。7位ECC可以检测2位错误并检测/纠正1位错误。最后六个存储体对128位字中的每32位具有偶数奇偶校验位保护。这四个32位字段以4的距离交织。程序和数据存储器都支持错误注入。错误可以通过内存映射AXI 4引入程序内存。类似地,错误可以通过AI Engine DMA或内存映射AXI 4注入数据内存库。当内存映射的AXI 4访问读取或写入AI引擎数据内存时,两个请求被发送到内存模块。在ECC/奇偶校验事件上,该事件可能在AI引擎性能计数器中计数两次。存在重复的内存访问,但对功能没有影响。有关事件和性能计数器的详细信息。内部内存错误(可纠正和不可纠正)会创建内部事件,这些事件使用正常的调试、跟踪和分析机制来报告错误条件。它们也可用于向PMC/PS发出中断。
阅读更多精彩文章,请关注订阅号:威视锐科技