卷积神经网络加速技术的评估与架构分析
1. 5 位 CNN 权重的算术编码与解码评估
1.1 延迟与资源使用权衡
在资源受限的系统或设备中,使用 2 - DU、4 - DU、8 - DU 和 16 - DU 解码器时,存在延迟与资源使用的权衡关系。2 - DU、4 - DU 和 8 - DU 设计所需的硬件资源远少于 16 - DU 设计,适合小型或微型嵌入式边缘设备。然而,较少的 DU 数量会导致更高的解码延迟开销,进而增加 CNN 推理延迟。
例如,在运行 AlexNet 时,4 - DU 和 8 - DU 解码器在未剪枝情况下的性能开销分别可达 34.2% 和 8.73%,剪枝情况下分别可达 31.4% 和 2.77%。2 - DU 解码器在未剪枝和剪枝情况下的延迟开销分别可达 126.1% 和 108.0%。
不同 CNN 加速器的情况也有所不同。对于某些使用 8 位精度加速器的情况,由于算术编码技术针对 5 位权重编码进行了优化,其压缩比不如 5 位精度加速器,导致传输延迟相对较高。在某些情况下,8 - DU 和 16 - DU 的传输延迟和解码延迟可被 CNN 层处理时间隐藏,但 2 - DU 和 4 - DU 则不能。
以下是不同 DU 解码器在不同 CNN 加速器下的推理延迟(单位:ms):
| 组合 CNN 加速器 | 基线 | 2 - DU | 4 - DU | 8 - DU | 16 - DU |
| — | — | — | — | — | — |
| [112] | 8.83 | 18.37 | 11.60 | 9.02 | 8.91 |
| [113] | 52.80 |
超级会员免费看
订阅专栏 解锁全文
11万+

被折叠的 条评论
为什么被折叠?



