高效DNN训练处理器:DF-LNPU与HNPU的技术解析
1. DF-LNPU的测量结果与性能优势
1.1 EMA减少与效率提升
DF-LNPU在完成某一层的误差传播(EP)后,会重置伪随机数生成器(PRNG)并传递另一个随机种子。一旦操作场景和网络确定,表中存储的种子就固定下来。由于PRNG重置并接收恒定种子,带宽生成器(BWG)为所有迭代生成不变的带宽(BW)。借助内置的随机数生成器(RNG),DF-LNPU能以最小的硬件成本消除由BW引起的额外内存访问(EMA)。基于PRNG的BWG可以用几个字节压缩BW,使DF-LNPU在前端(FW)数据事务中充分利用动态随机存取存储器(DRAM)带宽。BWG在EP阶段完全消除了所需的EMA,与传统的基于反向传播(BP)的训练相比,所提出的处理器实现了42.8%的EMA减少。
1.2 核心效率提升
误差传播核心(DEPC)与其他核心相比,面积占用最小。这是因为DEPC采用了基于加法树的矩阵乘法。BWG使用PRNG解码BW,解码后的数据代表BW的符号值。DEPC利用最后一层的softmax结果和BWG生成的BW生成中间误差。这里没有乘法运算,而是根据BW转换误差的符号信息。因此,它只执行加法计算,而不是矩阵乘法。这种EP核心的简化最大化了异构核心架构的效率,其面积效率提高了35.0%,能量效率提高了14.3%。
1.3 芯片实现与性能指标
DF-LNPU采用65纳米1P8M CMOS技术制造,面积为4×4平方毫米。每个零跳过卷积核心(ZCC)占用2.81平方毫米的面积,而学习核心(LC)占用5.36平方毫米。与传统的LNPU相比,ZCC的尺寸大幅减小,这是由不同的数字表
超级会员免费看
订阅专栏 解锁全文
4357

被折叠的 条评论
为什么被折叠?



