43、边缘端光速机器学习推理：ROBIN加速器的技术剖析

最新推荐文章于 2025-10-12 09:46:06 发布

wine

最新推荐文章于 2025-10-12 09:46:06 发布

阅读量42

点赞数

CC 4.0 BY-SA版权

分类专栏：嵌入式机器学习硬件前沿文章标签： ROBIN加速器光速机器学习推理边缘计算

本文链接：https://blog.youkuaiyun.com/wine/article/details/151036838

嵌入式机器学习硬件前沿专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

边缘端光速机器学习推理：ROBIN加速器的技术剖析

1. 核心参数与VDP单元设计

在相关设计中，每个波导的MR总数$N_{MR} = N_A + N_W + N_B$，所需DAC的数量等于$N_A$，根据点积运算的数学性质，$N_A$必须等于$N_W$。我们将分配MR的波导数量记为$N_{WG}$，VDP单元中能表示的向量最大大小为$N_{WG} * N_A$。为降低功耗，我们将该向量分布在多个波导上，这样可以复用波长，减少整体激光功耗。多个VDP单元可同时处理同一层的参数，同时生成部分和，实现高效并行化，提高加速器吞吐量。ROBIN中使用的VDP单元总数为$N_{VDP}$。VDP和架构设计过程可视为一个优化问题，我们需探索$N_{VDP}$、$N_{WG}$、$N_A$（等于$N_W$）和$N_B$的值，以最大化吞吐量并最小化面积和功耗。

2. VDP单元中的光波长复用

以往的光加速器设计通常为向量的每个元素使用单独的波长。随着映射向量尺寸的增加，这种方法会导致激光组所需激光器总数增加，进而增加功耗。除了采用上述分解方法外，我们还考虑在每个VDP单元内进行波长复用，以最小化激光功率。在VDP单元内，电子控制单元（ECU）分配的向量会进一步分解为较小尺寸的向量，这些向量可在VDP单元的每个臂中使用MR并行执行点积运算。通过进一步分解映射向量，VDP内的各臂可以复用相同的波长，从而减少激光器所需的唯一波长数量。光电探测器（PD）对元素级乘积进行求和，从分解的向量点积中生成部分和。分解操作产生的部分和随后由VCSEL转换回光域，复用成单个波导，并使用另一个PD进行累加，然后再进行缓冲。这种方法虽然会使PD和分束器的数量比其他加速器有所增加，但能显著减少每个波导的MR数量和整体

会员秒杀 ¥9.9 重磅福利

超级会员免费看