很久不写程序,犯了很多的错误!
逻辑条理不清晰,分析不够全面 ,蛋疼了两天才弄出来!并且为了,逻辑上的简洁,目前的版本只能用于一个block!
由于CUDA中,并不能实现全局线程的同步,所以,多个block线程的同步没法做到,只能是在每个block完成工作后,重新开启kernel函数,进一步归并,这样就到了更上一层。
虽然没多少人看,还是说一下!
我习惯在代码中附上自己的分析,思路,已经犯过的错误!相信以后看起来会更容易!
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include<stdlib.h>
#include<iostream>
#include<device_functions.h>
#include<string.h>
#include <stdio.h>
using namespace std;
#define N 256//定义有N个数需要排序
#define size N*sizeof(float)
__global__ void mergeSort_kernel(float *d_a,float *d_b);
__device__ void mergeSort(float *d_a,float *d_b,int tid,int stride);
void showData(float *p);
int main()
{
cudaError_t err;
err=cudaSuccess;//定义成功码
float *h_a,*h_b;
h_a=(float*)malloc(size);
srand(2014);
h_b=(float*)malloc(size);memset(h_b,0,size);
for(int j=0, i=256;i<512;i++,j++)
{
//h_a[i]=rand();
h_a[j]=i;
}
cout<<"随机数初始化完成!"<<endl;
showData(h

这篇博客记录了作者在实现基于GPU的归并算法过程中遇到的挑战,如逻辑条理不清、分析不足,以及CUDA中无法全局同步线程的问题。为确保逻辑简洁,当前版本仅适用于一个block。解决方案是通过多次启动kernel函数来逐步归并,逐步推进到更高层级。作者还分享了在代码中注释分析和错误的经验,以方便日后回顾。
最低0.47元/天 解锁文章
871

被折叠的 条评论
为什么被折叠?



