DEFA: Efficient Deformable Attention Acceleration via Pruning-Assisted Grid-Sam..... 论文解读
在代表性基准测试中进行了广泛评估,与强大的gpu相比,DEFA实现了10.1-31.9倍的加速提升和20.3-37.7倍的能效提升。FWP和PAP平均减少43%的fmap像素和84%的采样点,并且消除了不重要的fmap像素和采样点的计算成本,占整体计算的50%以上。在MSGS的biliner中,在没有bank冲突的情况下,并行计算四个采样点。3.1 PWP:文中提到采样中每个像素的访问概率差异较大,因此作者对像素的采样次数进行统计,然后将采样频率低的像素根据位置进行掩码,从而达到减少内存的目的。
原创
2024-04-04 12:41:16 ·
846 阅读 ·
0 评论