充分利用多embedding look up操作高并行性/独立性以及embedding 局部性,将原有CPU look up 操作offload到GPU上提出三阶段embedding look up数据流程. TPS提升至原有的1.6x。
笔记整理:Docs
充分利用多embedding look up操作高并行性/独立性以及embedding 局部性,将原有CPU look up 操作offload到GPU上提出三阶段embedding look up数据流程. TPS提升至原有的1.6x。
笔记整理:Docs