GPU CPU NPU

随着人工智能和深度学习逐渐进入人们视野,中科院、谷歌、IBM、英伟达等中美科研机构和商业公司也纷纷推出了用于深度学习的处理器。在上述产品中,既有CPU、GPU、DSP这样的传统芯片,也有专门为深度学习而生的NPU。那么,CPU、GPU、DSP、NPU等深度学习处理器各有什么特点,这些深度学习处理器谁更出彩呢?

CPU、GPU、DSP:以现有的技术进行微调

  在英伟达开发出针对人工智能的定制GPU,并坚持DGX-1 系统之后,Intel也不甘落后,在收购深度学习创业公司 Nervana Systems之后,Intel也公布了用于深度学习的Xeon Phi家族新成员,在深度学习处理器领域开辟新战场。之后Intel和英伟达更是先后宣称自己的产品优于对方的产品,在舆论上打起来口水战。虽然现阶段短时间看还是GPU有优势——Intel的众核芯片也在一定程度上吸取了GPU的优势。不过,无论是针对人工智能的众核芯片还是定制版的GPU,本质上都不是专用处理器,实际上是拿现有的、相对成熟的架构和技术成果去应对新生的人工智能,并没有发生革命性的技术突破。

  之前说过星光智能一号即所谓“中国首款嵌入式神经网络处理器”很有可能是一款可以运行神经网络的DSP,而非真正意义的神经网络专用芯片。
  其实,Cadence公司的Tensilica Vision P5处理器、Synopsys公司的EV处理器和星光一号如出一辙,也是将传统的面向数字信号处理的DSP处理器架构用于处理神经网络,主要在运算器方面作了相应修改,例如低位宽和超越函数,而并非真正的NPU,能够适用于卷积神经网路(CNN),而对循环神经网络(RNN)和长短期记忆网络(LSTM)等处理语音和自然语言的网络有可能就无能为力了。
  总之,Intel、英伟达、Synopsys公司、Cadence公司等都是在使用现有的比较成熟的技术去满足深度学习的需求,众核芯片和定制版GPU在本质上来说依旧是CPU和GPU,而并非专门针对深度学习的专业芯片,Synopsys公司和Cadence用传统SIMD/DSP架构来适配神经网络,和真正的NPU依然有一定差距。打一个比方,用众核芯片、GPU、DSP跑深度学习,就类似于用轿车去拉货,受轿车自身特点的限制,货物运输能力与真正大

### CPUGPUNPU区别及其应用场景 #### 中央处理器 (CPU) 中央处理器(CPU),通常被称为计算机的大脑,设计用于处理广泛类型的计算任务。这些任务包括但不限于运行操作系统功能、管理输入输出操作以及执行应用程序逻辑。现代多核CPU能够高效地分配资源来并发处理多个线程的任务[^1]。 对于批处理大小设置,默认每设备训练批次大小为8,适用于CPU核心的配置说明也体现了这一点。这意味着,在训练期间,每个CPU核心会接收固定数量的数据样本进行处理,以此平衡负载并提升效率。 ```python per_device_train_batch_size: int = field( default=8, metadata={"help": "Batch size per GPU/TPU/MPS/NPU core/CPU for training."} ) ``` #### 图形处理器 (GPU) 图形处理器(GPU)最初是为了加速图像渲染而设计的硬件单元,但随着技术的发展,其应用范围已经扩展到通用计算领域。相比于传统CPUGPU拥有更多的处理单元(ALUs),特别适合大规模矩阵运算和平行数据流处理。因此,在机器学习特别是深度学习方面表现尤为突出,因为这类算法往往涉及大量相似结构化的重复计算工作[^2]。 当涉及到评估阶段时,同样采用默认值8作为每设备评测批次尺寸,表明即使是在不同架构下(如GPU),保持一致性的批量规模有助于维持稳定性和可预测性。 ```python per_device_eval_batch_size: int = field( default=8, metadata={"help": "Batch size per GPU/TPU/MPS/NPU core/CPU for evaluation."} ) ``` #### 神经网络处理器 (NPU) 神经网络处理器(NPU)是一种专门为人工智能推理和训练定制优化过的集成电路芯片。相较于其他两种类型,NPUs更专注于支持特定的人工智能框架和技术栈,比如TensorFlow或PyTorch等,并且内置了许多针对卷积层、激活函数以及其他常见AI组件的高度专业化指令集和支持库。这使得它们能够在更低能耗的情况下实现更高的吞吐量和更快的速度,非常适合部署在边缘端设备上完成实时分析任务。 例如,在移动平台上,通过利用像苹果公司的Metal API这样的接口,可以更好地发挥出集成在其SoC内部的小型专用AI协处理器——即所谓的“Apple Neural Engine”的潜力,从而显著改善用户体验的同时减少延迟时间。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值