11、探秘DF - LNPU:高效神经网络处理器的架构与性能优化

探秘DF - LNPU:高效神经网络处理器的架构与性能优化

1. DF - LNPU整体架构概述

DF - LNPU从宏观上可分为两个核心:两个零跳过卷积核(ZCCs)和一个基于PDFA的学习核(LC)。ZCCs负责卷积层(CLs)的推理和训练,而LC则使用PDFA方法计算全连接层(FCLs)。

在进行基于PDFA的学习时,其工作流程如下:
1. EP核心计算前馈(FF)结果的损失并确定误差δ(3,t)。
2. 中间层的误差由DFA算法生成,并传输到GG核心。
3. GG核心计算相应神经元连接的权重梯度,以转置方式收集所有批量数据,如激活值和误差。
4. GG核心的最终乘法结果被移动到权重更新单元(WUU)。
5. WUU从外部DRAM接收权重,并计算动量优化器以生成新的权重。
6. 双缓冲权重存储器(WMEM)作为临时缓冲区与外部DRAM通信。
7. WUU生成的新权重被传输到FF核心,FF核心执行下一次迭代的推理。

所有中间激活值和误差都存储在输出存储器(OMEM)中,OMEM由32组SRAM组成,总大小为160KB。运行长度编码(RLC)解码器位于OMEM附近,因此FF和GG核心都能接收解码后的激活值。在基于PDFA的学习之前,FCLs的输入应被提取到OMEM中,输入数据可以直接从聚合核心传输或从外部DRAM加载。在在线学习场景中,DF - LNPU会偶尔将输入数据存储到DRAM中,并用于后续的DNN训练。

LC支持丢弃正则化,并利用时钟门控来最小化功耗。时钟门控方法与某方法相同,丢弃控制器从丢弃存储器(DRMEM)接收丢弃指标,这些指标可在反映ReLU激活函数的导数时进行修改,从而实

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值