12、卷积神经网络加速器:从密集到稀疏的技术探索

卷积神经网络加速器:从密集到稀疏的技术探索

1. NeuroMAX密集CNN加速器

NeuroMAX加速器旨在优化3×3和1×1卷积,不过它也能加速更大内核尺寸的卷积操作。NVIDIA提出的内核分解方法表明,要实现任意滤波器尺寸,需要额外支持4×4和5×5滤波器。

以5×5卷积为例,由于PE矩阵大小为6×3,宽度大于3且高度大于6的滤波器需要多个周期来计算输出值。在时间戳t = 2时,输入矩阵和权重矩阵的最后两列被加载。生成的部分和(o1 - o18)会被提供给加法器网络1。

对于5×5卷积,输出值的计算方式如下:
- (Va0, Va2 = ((o1 + o5 + o9) + (o10 + o14)) {old} + (o1 + o5 + o9) {new})
- (Va1 = ((o4 + o8 + o12) + (o13 + o17)) {old} + (o4 + o8 + o12) {new})

这里,旧值对应于t = 1时输入和权重矩阵前三列的卷积输出,新值对应于t = 2时最后两列的卷积输出。4×4卷积也采用类似的配置和数据流图。此外,CONV核心还能通过选择合适的步长和内核来执行池化操作。

2. NeuroMAX的实现与结果

NeuroMAX加速器已在软件和硬件(Xilinx Zynq - 7020 SoC的PL侧,运行频率200 MHz)上实现。

2.1 资源利用与功耗
属性 加速器
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值