边缘端光速机器学习推理:ROBIN加速器的技术剖析
1. 核心参数与VDP单元设计
在相关设计中,每个波导的MR总数$N_{MR} = N_A + N_W + N_B$,所需DAC的数量等于$N_A$,根据点积运算的数学性质,$N_A$必须等于$N_W$。我们将分配MR的波导数量记为$N_{WG}$,VDP单元中能表示的向量最大大小为$N_{WG} * N_A$。为降低功耗,我们将该向量分布在多个波导上,这样可以复用波长,减少整体激光功耗。多个VDP单元可同时处理同一层的参数,同时生成部分和,实现高效并行化,提高加速器吞吐量。ROBIN中使用的VDP单元总数为$N_{VDP}$。VDP和架构设计过程可视为一个优化问题,我们需探索$N_{VDP}$、$N_{WG}$、$N_A$(等于$N_W$)和$N_B$的值,以最大化吞吐量并最小化面积和功耗。
2. VDP单元中的光波长复用
以往的光加速器设计通常为向量的每个元素使用单独的波长。随着映射向量尺寸的增加,这种方法会导致激光组所需激光器总数增加,进而增加功耗。除了采用上述分解方法外,我们还考虑在每个VDP单元内进行波长复用,以最小化激光功率。在VDP单元内,电子控制单元(ECU)分配的向量会进一步分解为较小尺寸的向量,这些向量可在VDP单元的每个臂中使用MR并行执行点积运算。通过进一步分解映射向量,VDP内的各臂可以复用相同的波长,从而减少激光器所需的唯一波长数量。光电探测器(PD)对元素级乘积进行求和,从分解的向量点积中生成部分和。分解操作产生的部分和随后由VCSEL转换回光域,复用成单个波导,并使用另一个PD进行累加,然后再进行缓冲。这种方法虽然会使PD和分束器的数量比其他加速器有所增加,但能显著减少每个波导的MR数量和整体
超级会员免费看
订阅专栏 解锁全文
1904

被折叠的 条评论
为什么被折叠?



