基于GPU的归并算法实现

最新推荐文章于 2025-10-30 04:17:48 发布

原创

最新推荐文章于 2025-10-30 04:17:48 发布 · 1.4k 阅读

5 ·

CC 4.0 BY-SA版权

这篇博客记录了作者在实现基于GPU的归并算法过程中遇到的挑战，如逻辑条理不清、分析不足，以及CUDA中无法全局同步线程的问题。为确保逻辑简洁，当前版本仅适用于一个block。解决方案是通过多次启动kernel函数来逐步归并，逐步推进到更高层级。作者还分享了在代码中注释分析和错误的经验，以方便日后回顾。

很久不写程序，犯了很多的错误！

逻辑条理不清晰，分析不够全面，蛋疼了两天才弄出来！并且为了，逻辑上的简洁，目前的版本只能用于一个block！

由于CUDA中，并不能实现全局线程的同步，所以，多个block线程的同步没法做到，只能是在每个block完成工作后，重新开启kernel函数，进一步归并，这样就到了更上一层。

虽然没多少人看，还是说一下！

我习惯在代码中附上自己的分析，思路，已经犯过的错误！相信以后看起来会更容易！

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include<stdlib.h>
#include<iostream>
#include<device_functions.h>
#include<string.h>

#include <stdio.h>
using namespace std;

#define N 256//定义有N个数需要排序
#define size N*sizeof(float)
__global__ void mergeSort_kernel(float *d_a,float *d_b);
__device__ void mergeSort(float *d_a,float *d_b,int tid,int stride);
void showData(float *p);

int main()
{
	cudaError_t err;
	err=cudaSuccess;//定义成功码
	float *h_a,*h_b;

	h_a=(float*)malloc(size);
	srand(2014);
	h_b=(float*)malloc(size);memset(h_b,0,size);
	for(int j=0, i=256;i<512;i++,j++)
	{
		//h_a[i]=rand();
		h_a[j]=i;
	}
	cout<<"随机数初始化完成！"<<endl;
	showData(h