硬件仿真加速器Palladium、Zebu和Veloce

1996 年,Mentor Graphics 收购了 Meta Systems,为未来名为 Veloce硬件仿真系统做好了准备。

1998 年,Cadence 收购了 Quickturn,成为了唯一一家提供基于处理器的定制仿真系统,也为未来名为 Palladium 硬件系统做好了准备。

直到 2012 年,Synopsys 收购了另一家名为 Emulation Verification Engineering(EVE)的法国公司,才将硬件仿真器业务回归。EVE 公司与此前的 Meta Systems 有着说不清道不明的关系。EVE公司的硬件仿真器名叫 ZeBu,意思是 Zero Bug。

它总是与 Xilinx 的最新款 FPGA 深度绑定,从而在硬件上确保了常用常新。他们认为,只要专注在软件设计和系统架构就能够开发出与未来市场所能匹配的硬件仿真器。

由此,硬件仿真器的市场被 EDA 三巨头所垄断,而它们采用的技术方案都各不相同。

Mentor Veloce 是基于定制的 FPGA,Cadence Palladium 是基于定制的处理器,而 Sysnopsys ZeBu 是完全采用市场最先进的通用 FPGA。

三家主流EDA厂商均推出了相应的硬件加速器。硬件仿真器的竞争格局就此落下了帷幕。

为什么需要硬件加速验证?

在芯片设计过程中,验证的主要目标是确保设计逻辑正确无误,并能在真实硬件环境下稳定运行。传统的软件仿真虽然能提供详细的信号级别调试能力,但是计算速度极为缓慢,难以应对当今复杂度以前所未有速度增长的SoC设计需求,尤其是在AI、自动驾驶和高性能计算(HPC)领域,单靠软件模拟是行不通的。

如今的SoC动辄包含数百亿个晶体管,集成CPU、GPU、NPU等多种计算单元,涉及庞大的片上网络(NoC)和存储架构。以GPU级别的芯片为例,仅靠软件仿真执行完整的系统测试,可能需要数月甚至更长时间。

总结起来,软件仿真的主要劣势体现如下三点:

仿真速度慢:随着芯片越来越复杂和庞大,是的传统仿真的时间越来越长,尤其是在SoC级别,严重拖累芯片设计进度。

硬件 / 软件协同验证困难:现代 SoC 芯片包含复杂的硬件和软件系统,需要进行有效的硬件 / 软件协同验证。然而,传统软件仿真难以运行真实的系统级软件。

难以模拟真实的芯片环境:在流片前,能够在接近真实的芯片环境中,跑更多的系统级测试场景有助于降低系统级bug的风险。

目前业界主要的硬件加速方式分为两种,即FPGA和专用的模拟器(emulator)。实际上,专用模拟器仍然是基于FPGA的定制产品,只不过比起商用的FGPA(Xilinx、Altera),它在硬件加速方面还有其它显著的特点:

  • 内部可编程单元的连接网络方式不同于商用FPGA,这使得它在综合布线效率上面显著优于FPGA,而且对于内部可编程单元的利用率也高于FPGA。

  • 外部连接网络的方式也不同于FPGA,这使得它可以通过多路复用技术实现片上存储共享而不再像FPGA一样需要定制的存储器,同时通过扩大I/O管脚数目来扩展器件之间通信带宽,以此来确保模拟器之间的通信速度不会成为瓶颈。

  • 通过智能的内部数据采集和内置追踪存储器的帮助,这使得被映射到模拟器平台的所有逻辑单元在理论上都是可见的。这种采集方式在一开始建立平台时就可以通过定义采集信号列表来修改内部走线,同时也不会降低模拟速度。

模拟器的这些特点与FPGA可以很好地区分开来,而在实际工作中,FPGA和模拟器使用的场景也有所不同。FPGA原型验证主要是针对于小型设计或者单独的IP,而模拟器则是用来面向更大更复杂的SoC设计。FPGA主要是为软件开发提供平台,而模拟器则是为了硬件和软件协同验证和整个系统的测试。随着最近10年,模拟平台技术日趋完善和容易使用的情况下,与FPGA相比,越来越多的公司开始考虑使用模拟器,这主要是基于如下的因素:

  • 更快的平台建立时间

  • 更快的编译综合时间(从RTL到仿真运行)

  • 良好的调试条件,例如信号可追踪,波形可保存,设置断点等等

  • 模拟器的高存储量、可裁剪同时支持多个任务供多个用户使用

  • 通过云端来购买使用流量使用远程服务,而不再像FPGA需要一次性购买,减低前期投入成本

  • 容易操作

以下是FPGA同模拟技术的比较:

目前业界的硬件加速标准并未达成一致,主流的三家公司实现硬件加速的具体技术也各有特点。我们在上面提到的模拟器(emulator),通过将设计逻辑映射到可编程单元的方式,主要有Veloce(Mentor)和ZeBu(Synopsys)。

Veloce采用的技术正是我们上面提到的,通过定制的可编程单元(非常类似于FPGA),不同的内部连接网络结构,以及透明的可调式电路实现在该模拟器平台上。平台上的每一块模拟器芯片都可用来模拟一小块的设计逻辑,而整个芯片的功能则是通过集成各个模拟器芯片实现片间快速通信来实现的。

ZeBu不一样的地方在于它直接采用FPGA,而且通过技术也将透明的可调式电路技术和其它特性实现到FPGA中,多个FPGA进一步来组成完整的芯片功能,这种方式对于用户来看,与Veloce的区别并不大。

在此之外,Cadence公司的仿真加速器(simulation accelerator)Palladium也显得与众不同。它作为独立的加速器平台,内部包括有数量巨大的简单处理器,而每一块处理器又可以来仿真一小块设计的逻辑部分,并且将运算结果在它们之间传递。看起来,这些处理器每一个的运算速度都要低于我们的桌面处理器,但是由于我们通过成千上万个小的处理器并行工作,这使得实际的运算结果要大大高于独立处理器的表现, 同时,这些独立的小型处理器也支持透明化的调试方式。

目前主流三大家硬件仿真产品介绍:

1. Cadence的Palladium系列:

Cadence Palladium 仿真平台提供高性能的硬件/软件协同验证与调试,支持超大规模 SoC 设计。其优势包括超快编译速度(数十亿门的设计规模单日仍可达3次迭代)、高效的在速调试(无需重新编译)、以及强大的多场景支持(电路级仿真、混合加速、动态功耗分析等),大幅提升前硅验证效率和调试生产力。

作为最新一代,Palladium Z3最大的突破是它的"超能力"芯片——每颗仿真处理器集成了超过1000亿个晶体管,官方资料显示,Z3的性能是前代的1.5倍,而且可以支持高达480亿个逻辑门的复杂设计,相当于把整个自动驾驶汽车的计算系统装进一个验证平台。

这套系统的厉害之处在于看得深、跑得快。当NVIDIA设计Blackwell GPU时,工程师用它来模拟AI训练的全过程:既能逐行检查代码运行是否出错,又能实时监测数百个计算核心的协作状态。比如在测试万亿参数大模型时,系统仅用3天就发现了内存带宽瓶颈——这个错误如果用传统软件仿真可能需要三个月才能暴露。 

01

Palladium Z3 企业仿真平台

  • 可扩展至 48 亿门

  • 模块化编译器:8 小时内完成编译

  • 性能是 Palladium Z2 系统的 1.5 倍

  • Palladium Z2 和 Palladium Z3 系统的软件兼容性

  • 适用于所有 Palladium 和 Protium 系统的通用前端

  • 与 Palladium 和 Protium 系统通用的虚拟和物理接口

  • 从上一代 Palladium 系统轻松过渡

02

Palladium Z企业仿真平台

  • 容量是 Palladium Z1 平台的 2 倍,性能是 Palladium Z1 平台的 1.5 倍

  • 模块化编译器:8 小时内完成编译

  • 波形转储速度提高 10 倍,调试跟踪深度提高 2 倍,内存转储和调试上传速度提高 2 倍,主机吞吐量带宽提高 3 倍

  • FullVision 3.0 – 全新改进的高性能调试引擎

  • 每个机架从 800 万门扩展到 11.52 亿门

03

Palladium混合

Helium Virtual 和Hybrid Studio 通过在 Palladium 和 Protium 系统中将虚拟混合模型与 RTL 集成,扩展了我们的仿真和原型设计系统,提高了有效性能、容量或特定用例中的有效性。

  • 通过卸载已验证的性能门控组件(如第三方 CPU 内核)来提高有效性能

  • 通过集成仍在开发中的组件的虚拟平台模型,尽早实现系统级验证

  • 通过将单个 RTL 与系统级虚拟平台集成,以单元级容量进行系统级测试,提高效率

04

Apps

  • 4 态仿真应用程序支持加速需要 X 传播和验证多个开关电源域的仿真

  • 实数建模应用程序支持加速混合信号设计的仿真。

  • 动态功耗分析应用程序一种非常快速的大规模并行架构,用于功耗分析,支持数十亿门 SoC

  • Job Scheduling 应用程序:一个灵活的、基于队列的企业级界面,用于分派仿真作业,支持作业优先级和作业匮乏缓解

  • 安全 App:串行故障仿真,与 Cadence 数字安全验证相结合,实现最高性能的安全活动执行,符合 ISO 26262 标准

  • 视频分析器应用程序:图形和基于视频的界面的图形视图,具有实时数据实时视图,支持波形数据的捕获、调试、分析和回放

05

界面

  • 加速 VIP 和 VirtualBridge 适配器:高性能协议 IP,支持使用 Palladium 和 Protium 系统进行虚拟驱动程序和应用程序级测试

  • 存储器模型组合:行业标准存储器模型,可轻松与 Palladium 和 Protium 系统集成

  • Protium 子卡:集成 ICE 接口、外部存储器解决方案、测试设备适配器,并使用外部数据采集卡 (DCC) 进行调试

  • SpeedBridge 适配器和 EDK:协议接口解决方案,可实现高效的驱动程序和应用程序级测试,以及现成的、经过 BIOS 优化的目标主机,以支持集成的、未经修改的操作系统和软件

  • 虚拟调试和物理 JTAG:使第三方调试器(包括 Lauterbach Trace32、Xtensa OCD、Arm Development Studio、Green Hills MULTI 和 Open OCD)的用户能够通过 JTAG、DAP 和 AMBA 协议访问 Palladium 或 Protium 仿真处理器内核

2. Synopsys Zebu系列:

新思科技全面升级其高性能硬件辅助验证(HAV)产品组合,推出全新一代HAPS-200原型验证系统和ZeBu仿真系统。

这两种解决方案都基于新款的AMD Versal Premium VP1902自适应片上系统(SoC),运行时性能、编译时间和调试效率都得到了显著提升。

相较于业界容量最高、密度最佳的硬件加速系统ZeBu Server 5,全新升级的ZeBu仿真系统,运行速度更高,能够处理高达154亿逻辑门的设计规模。这让开发者能够在性能、容量与密度之间拥有更大的灵活性。

此外,开发者还将受益于更快的软件启动体验(如在移动应用中启动Android系统)。同时,混合仿真现在支持更新、更快的新思科技Virtualizer虚拟原型多线程技术。

最为重要的是,新思科技正在与客户合作,通过将模块化HAV方法从HAPS原型设计扩展到ZeBu硬件加速,克服超过600亿逻辑门规模先进设计的验证挑战。

推动这些扩张的因素是什么?

复合复杂性(涵盖软件、硬件、接口和工作负载优化架构)为当前最先进芯片、系统级芯片(SoC)和Multi-Die设计的开发者带来了巨大的挑战。特别是验证和软件开发过程可能需要在仿真、硬件加速和原型设计阶段完成数千万亿个测试和验证周期。因此,人们明显需要更快的HAV解决方案,以加速先进芯片设计的开发和验证,并为其所支持的软件定义系统的优化功能提供保障。

▲图1:日益复杂的形势推动着硬件辅助验证需求的发展

新思科技始终处于HAV创新的前沿。HAPS-200原型验证系统和ZeBu仿真系统均采用新思科技在2022年推出的突破性概念:硬件加速和原型就绪(EP-Ready)硬件概念,并采用AMD最新的现场可编程门阵列(FPGA)技术发展创新,进而为不同设计规模和用例提供业界领先的性能。

通过这种方式,HAPS-200原型验证系统和ZeBu仿真系统可实现超强灵活性,提高客户投资回报率,并最终改变先进芯片和软件定义系统的验证流程。

针对性能进行了优化:新一代原型HAPS-200

HAPS-200以业界领先的运行效率,为高性能硬件和软件验证任务提供出色支持。同时,它也是接口协议验证、合规性测试及高速认证的理想选择。

  • 与其前代产品HAPS-100相比,新产品的性能提高至2倍,调试带宽增加至4倍

  • 使用异步设计架构,实现高达数十MHz的速度,接口协议子系统的速度可达400MHz以上

  • 可与现有的HAPS-100原型环境、HT3连接器和配件一同使用

  • 从单个FPGA扩展到多机架设置,容量高达10.8 BG

  • 轻松重新布线,以优化性能

  • 可通过ZeBu软件,利用EP-Ready硬件配置为硬件加速用例

针对灵活性进行了优化:ZeBu高性能硬件加速

ZeBu仿真系统为硬件加速用例(包括RTL验证和性能/低功耗分析)、软件启动和高级调试提供业界领先的性能。

  • 与其前代产品ZeBu EP1和ZeBu EP2相比,新一代ZeBu产品的性能提高至2倍、调试带宽增加至8倍、容量扩大至6倍,编译速度也有一定的提升。

  • 最大容量扩展至154亿逻辑门。

  • 提供更强大的跟踪内存,能够快速实时捕获设计波形和调试轨迹。

  • EP-Ready硬件可通过HAPS ProtoCompiler配置为原型设计用例。

EP-Ready硬件提供出色的投资回报率和极致灵活性

HAPS-200原型验证系统和ZeBu仿真系统均基于EP-Ready硬件,支持通过软件和布线重新配置,以适应从详细RTL验证至高速软件验证等所有硬件加速和原型设计用例。除了提供优越的投资回报率(ROI)之外,这种灵活性还直接解决了验证规划中的一大挑战性难题。

长期以来,设计团队在做出硬件决策和投资时,往往需要依赖对验证需求的早期预测。在这种情况下,随着项目和需求的发展,他们经常会遇到资源短缺(需要进行更多预测和投资)或利用不足(浪费预算)等问题。

我们的EP-Ready硬件平台消除了这种不确定性和相关投资需求,在以下方面有显著改善:

  • 资源优化:团队可以使用单一硬件平台支持所有验证用例(并同时管理多个项目),而无需维护用于硬件加速和原型设计的各种异构硬件池。

  • 降低风险:重新配置硬件的能力降低了与早期验证规划决策相关的风险。随着项目需求的变化,团队可以调整其验证方法,而无需额外购置新硬件。

  • 运营效率:管理用于硬件加速和原型系统的单一硬件平台可以减少操作复杂性、培训和维护。

▲图2:新思科技EP-Ready硬件平台具有两个用于硬件加速和原型系统的软件堆栈

我们的EP-Ready硬件基于统一的计算平台,集成了最新的AMD VP1902自适应SoC、电缆、内存和接口协议解决方案。通过灵活的布线和软件配置,用户可以根据需求选择同步时钟实现设计灵活性,或采用异步时钟优化性能表现。随着多个(通常是并行的)项目需求的变化,EP-Ready硬件能够快速重新配置,满足不同场景的需求。

模块化HAV方法可扩展容量,减少软件启动的时间和成本

现代芯片架构本质上是模块化的,多个小芯片通过UCIe等标准以及AXI和CHI等协议连接。硬件和软件复杂性的不断增加,导致小芯片呈分散化趋势,验证方法也随之向模块化发展。

▲图3:新思科技模块化HAV方法

我们的模块化HAV方法使用户能够将大型设计分解为可以独立验证的单个组件,然后便可以将其集成到更大的SoC或Multi-Die封装中。团队可以在自然边界处分割设计,例如UCIe接口和AXI/CHI协议。

验证完成后,就可以使用广泛的接口协议解决方案组合连接这些单独的组件。这些方案针对每个协议的延迟容忍度都进行了优化,使得SoC和系统验证团队能够维护现有的功能验证结构,让每个组件以最佳速度执行。

模块化HAV方法支持经过扩展的新思科技HAV产品组合,并在以下方面有所改进:

  • 可扩展性:支持超过600亿逻辑门的验证容量,团队可以高效验证用于AI训练、先进数据中心处理器和高性能计算的最大SoC和Multi-Die设计。

  • 生产效率:多个团队可以并行处理不同的子系统,大幅提高验证速度和效率。更改某个子系统时不需要重新验证其他子系统。使用较小的子系统时,软件启动速度也更快。

3. Mentor Veloce系列:

    

Siemens 硬件验证仿真加速平台Veloce,早在1998年Mentor公司就推出了硬件加速仿真产品,2002年收购Ikos公司之后,开始提供Veloce系列产品经过多年技术演进之后,Veloce已经成为芯片功能与性能验证主流工具平台之一。

更新的Veloce平台包括四大工具,即软件驱动虚拟验证平台Veloce HYCON、基于Siemens EDA定制芯片的硬件仿真器Veloce Strato+,以及基于FPGA的企业级原型验证系统Veloce Primo和桌面原型验证系统Veloce proFPGA。

   Veloce HYCON是一个可配置虚拟平台,支持基于软件的芯片设计方法,让硬件开发不再依赖于软件,工程师可以利用已有硬件及软件平台混合配置,提早进行软件开发及验证工作,从而实现“左移”开发。HYCON是混合配置(Hybrid Configurable)的意思,即软硬件混合仿真。

硬件仿真器Veloce Strato+采用全定制的Crystal 3+ 芯片,可实现全网表可见性,仿真的可控性非常强。与前一代Veloce Strato相比,Veloce Strato+容量增加了1.5倍。Strato单机箱容量是25亿门,最多可以把四台机箱串联起来使用,所以Strato最大容量为100亿门。Strato+单机容量达到37.5亿门,四台机器联合起来可达150亿门。

企业级FPGA原型验证系统Veloce Primo一般放在数据中心,支持多用户共享使用,设计容量最高可达320个FPGA,实现120亿门容量,性能支持从7MHz到70+MHz。全球第一大芯片IP公司Arm已经采用Veloce Primo进行开发。proFPGA则是个人系统,一般放在实验室或与工程师个人电脑相连,支持容量为4000万门到8亿门。

过去几年中,Veloce平台一直在扩充容量,扩展功能,四个产品Veloce HYCON、Veloce Strato+、Veloce Primo、Veloce proFPGA更新完成后,硬件辅助验证平台技术已经非常完整,后续发展也有很清晰的路线图,一句话来概括就是“一应俱全”。

当前市场上,硬件仿真平台产品不少,Veloce平台优势总结为三点,首先,Veloce平台虚拟化解决方案非常出色,能有效帮助客户实现开发“左移”,大幅缩短设计验证等开发时间以满足产品上市要求;其次,Veloce平台支持容量最高,如果采用最高配置,开发者可实现一次性完成150亿门电路验证,能满足现阶段绝大多数芯片的全系统仿真要求;第三,Siemens EDA为Veloce平台开发了大量应用软件,将开发者在设计验证中的很多工作都转换成一键式任务,进一步提升了开发效率。

首先看Veloce HYCON(Hybrid Configurable的缩写)。这是一个支持“左移”设计的平台,也就是说开发者可以借助这个平台颠覆传统做好硬件,再做软件测试的流程,及早地将其软件跑在芯片上。这一方面减少了开发时间;另一方面则可以更早地将漏洞展现出来,方便开发者优化。

Veloce HYCON包含了一个软件的工具,作为一个虚拟的模型,它还有操作系统软件。所以如果你是做一个系统,做一个产品,里面有Arm CPU,然后要跑到linux或安卓等操作系统上时,这个部分可以不需要放一个RTL进去,只是把你自己设计部分的硬件连到Veloce HYCON的模型上面,就可以去跑系统。

硬件仿真器Veloce Strato+则是Veloce 系统的另一重要组成部分。这也是Siemens EDA前一代产品Veloce Strato的升级。

据了解,公司上一代的Strato,一个机箱的容量是25亿门,可以同时把四台机箱串联起来,所以Strato整体最大的容量是100亿门。而对于现在的Strato+,把四台机器连起来则能达到150亿门容量,与比前一代的Veloce Strato增加了1.5倍。

在之前版本的Strato里面用的芯片是Crystal 3,如今全新的产品则用上了新芯片Crystal 3+。据了解,整个芯片的升级主要体现在存储上。与前一代芯片的存储是放在芯片外面的,然后在线路板上面把它连起来不一样,Crystal 3+是用了最先进的2.5D的技术,将存储都被放到封装里面。通过这样的设计,可以获得更低功耗、更快速度和更小芯片面积。

以前在同一个线路板上面可以放16个芯片,现在最多可以放24个芯片。在同一个机箱里面的容量更是从以前的25亿门扩大到现在的大约37.5亿门。

此外,Siemens EDA的这个系统还包括了Veloce Primo和Veloce proFPGAFPGA 这两个原型验证系统,其中Primo是企业级的,proFPGA则是桌面的。

首先看企业级系统Veloce Primo方面,据了解,这是一个可以被放到数据中心里面,允许很多不同的用户同时去分享的系统。它的好处就是高速度和较低的总体拥有成本(TCO),因为你可以分享,而且不管放到哪个地方,企业里面不同的部门、不同的设计中心都可以分享。

这个多用户的系统最多可以用320个FPGA设计容量,可以做到120亿门容量,工作负载较Veloce Strato高出10倍,拥有从7到70+ MHZ的高性能。

至于桌面 FPGA 原型验证系统Veloce proFPGA,它的好处是灵活性,因为它有不同的方案,同时能够保证高性能及可用性;它还可以从单一通道扩展到四个通道,最多可以把5个四通道板的桌面proFPGA连到一起,做到8亿门的容量。这也让他们在这个容量上做得非常灵活;它可以最低从40MG扩展到800MG,在不同的组合里面也都可以进行配置。

免责声明:以上信息均为作者从网络渠道收集汇总而来,仅供学习,侵权必删。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值