CUDA实现多batch基数排序 基数排序是具有固定迭代次数的排序算法, 其通过对最低位到最高位的一一比较,对数值排序。GPU版的基数排序将数据分为N个部分并行进行基数排序,随后并行规约得到排序后的数组。 这里实现了一版多batch的基数排序实例,并同时输出原数组的序号,基本实现了argsort的功能,代码如下所示: #include<iostream> #include<cuda_runtime.h> __device__ void preprocess_float