12、高效DNN训练处理器：DF-LNPU与HNPU的技术解析

kite3

于 2025-11-24 13:29:16 发布

阅读量30

点赞数

CC 4.0 BY-SA版权

分类专栏：片上训练NPU的革新之路文章标签： DF-LNPU HNPU DNN训练处理器

本文链接：https://blog.youkuaiyun.com/kite3/article/details/155398503

片上训练NPU的革新之路专栏收录该内容

18 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

高效DNN训练处理器：DF-LNPU与HNPU的技术解析

1. DF-LNPU的测量结果与性能优势

1.1 EMA减少与效率提升

DF-LNPU在完成某一层的误差传播（EP）后，会重置伪随机数生成器（PRNG）并传递另一个随机种子。一旦操作场景和网络确定，表中存储的种子就固定下来。由于PRNG重置并接收恒定种子，带宽生成器（BWG）为所有迭代生成不变的带宽（BW）。借助内置的随机数生成器（RNG），DF-LNPU能以最小的硬件成本消除由BW引起的额外内存访问（EMA）。基于PRNG的BWG可以用几个字节压缩BW，使DF-LNPU在前端（FW）数据事务中充分利用动态随机存取存储器（DRAM）带宽。BWG在EP阶段完全消除了所需的EMA，与传统的基于反向传播（BP）的训练相比，所提出的处理器实现了42.8%的EMA减少。

1.2 核心效率提升

误差传播核心（DEPC）与其他核心相比，面积占用最小。这是因为DEPC采用了基于加法树的矩阵乘法。BWG使用PRNG解码BW，解码后的数据代表BW的符号值。DEPC利用最后一层的softmax结果和BWG生成的BW生成中间误差。这里没有乘法运算，而是根据BW转换误差的符号信息。因此，它只执行加法计算，而不是矩阵乘法。这种EP核心的简化最大化了异构核心架构的效率，其面积效率提高了35.0%，能量效率提高了14.3%。