一、概述
随着 ChatGPT、Gemini 等大型语言模型的应用逐步融入我们的日常生活,AI 这两个字已经深深烙印在人们心中。因此,如何让人们的工作变得更智能、更高效、更快捷,成为下一个时代的重中之重!这也带动了云服务器对 GPU 使用需求的暴增。据 DIGITIMES 报道——『 AI 服务器需求激增,2024 年高端服务器 GPU 产值将达 1022 亿美元,NVIDIA 市场占有率居首。』。
另外,值得关注的另一个议题就是云端应用的孪生兄弟边缘计算(Edge Computing)该应用涵盖手机、相机、机器人、汽车、无人机、穿戴设备、工业与医疗电脑等,让每一台设备都赋予 AI 智能。相比需要通过互联网的云端计算,边缘计算强调计算速度、省电、低功耗、隐私性等概念。
对于对计算机视觉、机器学习、深度学习有一定了解的人来说,会理解这两个领域实际上可以分为“训练”和“推理”。由于 GPU 的硬件设计非常适合应用于高重复性且复杂的任务,因此使用 GPU 来训练 AI 模型是非常合适的!当模型训练完成后,可以长时间利用该模型来实现各种预测任务,比如物体的位置、人脸特征是否匹配、下一段可能会说什么话等 AI 任务。因此,‘推理’应用市场是相当庞大的,并且会持续增长。句子: 。 具 Data Bridge – 『全球边缘人工智能 (AI) 硬件市场规模、份额和趋势分析报告 – 行业概览及 2032 年预测 』指出目前边缘人工智能(Edge AI)硬件市场规模为 18.6 亿美元,预计到 2032 年将达到 49.4 亿美元。
边缘计算市场预测 –出处 Data Bridge 网站
二、 AI 新浪潮的造势者
当前全球人工智能(AI)技术的飞速发展,正推动整个半导体产业迈向新的时代,而其中推理(Inference)所需要的算力(TOPS,Tera Operations Per Second)已成为衡量 AI 芯片性能最直观且重要的指标之一。这种需求不仅重塑了硬件的设计思维,更开启了一场全球性的 AI 芯片新战场!
新兴AI芯片公司百花齐放,推动NPU架构革新
在过去五年中,随着人工智能推理市场的兴起,越来越多的初创公司投入专用AI加速器的研发,特别针对低功耗、高性能的边缘设备需求,掀起了一场神经处理单元(NPU)架构的创新浪潮。以下为目前在国际间具有代表性的初创AI芯片公司:从2015年成立的 Kneron(台湾)2017年成立的 Hailo(以色列)2019年成立的 DeepX(韩国)、 MemryX(美国)、 Axelera AI(荷兰)与 Neuchips(台湾)到2025年为止,全球已有超过30家初创公司投入这一赛道,形成本世代少见的「百家争鸣局面,不仅从硬件架构创新着手,还扩展到软件生态系统整合、模型转换与工具链设计,形成完整的AI加速生态系统。
传统半导体巨头的快速反击
面对新兴AI芯片公司的崛起,过去在半导体市场占据主导地位的传统芯片巨头也加快步伐,积极转型以迎合AI推理与边缘计算的新趋势。这些企业拥有先进制程、完整的开发工具与全球供应链优势,正通过并购、产品整合与生态系统构建,重新布局AI硬件版图例如,Qualcomm 将 AI 引擎整合进 Snapdragon 平台,广泛应用于手机、车载装置;NXP 通过 i.MX 系列整合 NPU 与 eIQ 软件工具,瞄准工控与智慧城市;Renesas 则导入 Reality AI 用于 MCU/MPU 平台,强化传感与实时控制应用。同时,作为全球最大IP核心供应商的 ARM 也加入战局,推出 Ethos-U 系列 NPU,专为低功耗设备设计,与 Cortex-M / Cortex-A 处理器紧密集成。快速席卷可穿戴、家庭、IoT等边缘AI市场,如下图定义。
ARM分析算力应用市场示意图 - 出处 ARM 和 linuxgizmos 网站
AI 芯片分流化时代:视觉与语言模型的双轴进化
随着AI推理需求快速增长,市场已明显分化为两大核心应用领域:计算机视觉(Computer Vision)与大型语言模型(Large Language Models, LLM)而各家AI芯片厂也根据不同需求设计对应的架构与产品策略。
在计算机视觉领域,应用场景涵盖智慧交通、自动驾驶、安防监控、工业图像识别等,特别强调实时性、低延迟与低功耗。因此,大多数芯片设计采用中等级算力(10~50 TOPS)并优化数据迁移与模型部署效率,例如:DEEPX DX-M1(25 TOPS)、Hailo-8(26 TOPS)、MemryX MX3(24 TOPS)等。此外,例如 SiMa.ai MLSoC(50 TOPS)与 Axelera AI Metis(214 TOPS)等高性能产品,也可支持多模型并行或高分辨率视觉分析的需求。
相比之下,大型语言模型如 ChatGPT、BERT、LLaMA 等,则需要极高的计算吞吐量与参数处理能力,这驱动了 AI 芯片朝向高 TOPS、高带宽与大量内部存储的方向发展。例如:Tenstorrent Wormhole n300d 的推理性能达到 466 TOPS 与 Neuchips RecAccel N3000(206 TOPS)针对数据中心与云端部署优化,专为边缘部署设计的产品。更小一些的边缘设备,如 DEEPX DX-M2(40 TOPS)、Hailo-10H(40 TOPS),已经具备支持轻量版 LLM 推理的能力。
如下图,不仅突显各家芯片产品的技术定位,也说明 AI 硬件市场正快速朝着应用分层与场景化设计的趋势迈进。评估AI芯片供应商的优劣,不仅仅只是以算力(TOPS)作为唯一衡量指标必须考虑功耗、延迟时间以及实际软件部署体验。用户将会从中找到最适合的 NPU 解决方案。这场 AI 芯片竞赛不仅是拼性能,更是系统整合与应用落地能力的全面较量。
AI 芯片市场布局示意图(信息与 Logo 摘自公开网站,仅供对照参考)
边缘 AI 的核心关键:精准对应场景选择芯片
一个真正能在场域中发挥效能的 AI 系统,远不只是依靠单一 NPU 芯片即可达成。虽然 NPU 是神经网络推理的关键运算核心,但它只是整体系统中众多运算模块之一。实际应用中,为了实现流畅且高效的 AI 处理,还需搭配 SoC 中的协处理器,如负责图像预处理的 ISP(图像信号处理器),协助图形渲染与合成的 GPU(图形处理器)以及负责视频解码、编码与压缩的 VPU(Video Processing Unit)。这些协处理器扮演着不可或缺的角色,从图像采集、画面修正、格式转换,到 AI 模型的前处理与后处理,每一个环节都不可或缺。通过这些模块的高度协同,AI 芯片才能实现真正可商用的应用效益。
如下图所示,AI 芯片的实际导入不应仅停留在 推理性能(TOPS)的比较,而是应该根据整体系统架构进行设计思考。从前端摄像头(Camera)到中间层的 NVR(Network Video Recorder),再到后端的服务器(Server),每一个阶段都可能使用不同类型、规模与能力的 AI 处理器。
以前端智能摄像机例如,这类产品需要内置图像采集、实时推理、低延迟反馈与低功耗等特性,因此较常采用如 Kneron KL720(1.5 TOPS)與 恩智浦 i.MX 8M Plus(2.3 TOPS)这种高集成度且搭载多媒体模块的 SoC 芯片,不仅体积小,还具备基础 AI 推理和 ISP 支持功能,能够在边缘端直接完成如人脸检测、物体识别等任务。而在中端应用层,如 NVR,通常不需要每台摄像机都具备 AI 功能,而是通过 NVR进行多路流的集中推理。这类产品可以搭配如 Hailo-8(26 TOPS)與 DeepX DX-M1(25 TOPS)等中高性能AI模块,支持多支甚至数十支摄像头的同时画面分析,是目前智慧城市与零售场景中常见的解决方案。
至于后端的边缘服务器与数据中心,则需要应对更大规模的运算负载与更复杂的模型,特别是现在的语音助手、实时翻译、大型语言模型(LLM)等应用。此时,就需要配备如 Neuchips RecAccel(206 TOPS),甚至 Tenstorrent Wormhole n300d(466 TOPS)等高端AI芯片,具备强大的推理性能、内存带宽和多任务处理能力,可支持大规模实时推理、视觉-语言融合或云端边缘混合部署等需求。总的来说,AI芯片并非单一组件的竞赛。而是一场考验“整合能力”的系统设计比拼唯有将 NPU 与 ISP、GPU、VPU 等模块有机整合,并根据应用场景精准部署 AI 硬件,才能发挥 AI 系统真正的商业价值。
AI产品设计示意图
三、结语
纵观 AI 芯片产业的发展脉络,已从早期强调运算性能(如 TOPS)的单一指标,逐步转向以应用导向、系统整合与场景落地为核心的新竞争格局。无论是部署于智能摄像机、工业设备,还是语音助手与大型语言模型服务器,一颗 AI 芯片的价值,早已不只是数字上的快与强,而是其能否真正融入产品、发挥协同效应,并解决现实中的问题。
NPU虽是AI运算的核心,但只有与 ISP、GPU、VPU等协处理器高度整合,并配合高性能系统设计与软件支持,才能创造真正具有商业价值的智能终端。然而,一颗优秀的 AI 芯片绝不仅仅是硬件本体,更依赖于完整的生态系统构建。从驱动程序、模型转换工具、开发框架支持,到示例程序与部署模板的持续优化,都是能否打动开发者与导入产品的关键。此外,与用户的密切沟通与反馈循环,也是加速产品成熟与市场扩展不可或缺的一环。
要真正引领市场、撼动如 NVIDIA 等既有强者地位,AI 芯片供应商必须同时具备强悍的系统整合能力、灵活的部署方案,以及以开发者体验为核心的软件支持策略,才能在这场 AI 革命中站稳脚步,开创新的竞争高地。
因此,大大通的 AI 社区 为各位评估 AI 芯片的用户,提供最大的资源支持,包括原厂展示视频、开发者资源、示例应用(Example Code)、模块资源(Model Zoo)。帮助边缘计算的伙伴,快速找到 AI 应用落地的契机!
四、参考文件
参考网站:
[1] AI服务器需求激增,2024年高端服务器GPU产值将达1,022亿美元,NVIDIA市场占有率居首。
[2] 全球边缘人工智能 (AI) 硬件市场规模、份额和趋势分析报告– 行业概览及 2032 年预测
[3] Arm发布了两款轻量级边缘AI神经处理单元(NPU)
[4] 白话科技丨AI PC中常见的TOPS是什么?1TOPS是多少算力?TOPS越大越好吗?
[6] 瑞萨收购Reality AI并发布在AI和TinyML解决方案方面的进展
如有任何相关人工智能技术问题,欢迎在博文底下留言提问!
接下来还会分享更多人工智能的技术文章 !!敬请期待 【ATU Book -AI 系列】 !!