[昇腾CANN自定义算子]TIK算子矢量计算接口vec_add

最新推荐文章于 2025-10-05 11:56:15 发布

原创最新推荐文章于 2025-10-05 11:56:15 发布 · 563 阅读

CC 4.0 BY-SA版权

文章标签：

5 篇文章

订阅专栏

本文详细介绍了如何利用AICore的VectorUnit进行矢量加法运算，重点阐述了mask参数的作用，以及dst, src0, src1等Tensor的定义和处理。在CANN5.0版本中，通过设置repeat_times和不同步长，可以有效地处理不同大小的数据块，实现高性能计算。

利用AI Core的Vector Unit，进行矢量加计算。

vec_add(mask, dst, src0, src1, repeat_times, dst_rep_stride, src0_rep_stride, src1_rep_stride)

mask
通常用这个参数的连续模式，就是设置前N个数据参与计算。
每次迭代可以计算256字节的数据。
比如，当计算float16类型数据时，每个数据2字节，所以mask设置成128时，就可以在一个迭代中计算256字节的数据。
dst, src0, src1
输出与输入Tensor。
通常事先通过tik_instance.Tensor定义定义好。
repeat_times
迭代次数。(最大值为255）
比如当Tensor大小是512字节时，因为一次迭代会计算256字节，所以应该迭代2次。
dst_rep_stride, src0_rep_stride, src1_rep_stride
步长。两次迭代头与头之间的block数。
通常连续计算时，设置为8。（32B*8=256B）