12、高效DNN训练处理器:DF-LNPU与HNPU的技术解析

高效DNN训练处理器:DF-LNPU与HNPU的技术解析

1. DF-LNPU的测量结果与性能优势

1.1 EMA减少与效率提升

DF-LNPU在完成某一层的误差传播(EP)后,会重置伪随机数生成器(PRNG)并传递另一个随机种子。一旦操作场景和网络确定,表中存储的种子就固定下来。由于PRNG重置并接收恒定种子,带宽生成器(BWG)为所有迭代生成不变的带宽(BW)。借助内置的随机数生成器(RNG),DF-LNPU能以最小的硬件成本消除由BW引起的额外内存访问(EMA)。基于PRNG的BWG可以用几个字节压缩BW,使DF-LNPU在前端(FW)数据事务中充分利用动态随机存取存储器(DRAM)带宽。BWG在EP阶段完全消除了所需的EMA,与传统的基于反向传播(BP)的训练相比,所提出的处理器实现了42.8%的EMA减少。

1.2 核心效率提升

误差传播核心(DEPC)与其他核心相比,面积占用最小。这是因为DEPC采用了基于加法树的矩阵乘法。BWG使用PRNG解码BW,解码后的数据代表BW的符号值。DEPC利用最后一层的softmax结果和BWG生成的BW生成中间误差。这里没有乘法运算,而是根据BW转换误差的符号信息。因此,它只执行加法计算,而不是矩阵乘法。这种EP核心的简化最大化了异构核心架构的效率,其面积效率提高了35.0%,能量效率提高了14.3%。

1.3 芯片实现与性能指标

DF-LNPU采用65纳米1P8M CMOS技术制造,面积为4×4平方毫米。每个零跳过卷积核心(ZCC)占用2.81平方毫米的面积,而学习核心(LC)占用5.36平方毫米。与传统的LNPU相比,ZCC的尺寸大幅减小,这是由不同的数字表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值