CUDA编程--检查和函数

最新推荐文章于 2025-03-22 19:15:02 发布

KK_THREESTEP

最新推荐文章于 2025-03-22 19:15:02 发布

阅读量1.6k

点赞数

分类专栏： cuda编程文章标签： cuda

本文链接：https://blog.youkuaiyun.com/weixin_42237615/article/details/122507492

版权

cuda编程专栏收录该内容

5 篇文章

订阅专栏

本文介绍CUDA编程中错误检查及主机与设备同步的方法。重点讲解了cudaGetLastError()与cudaDeviceSynchronize()函数的使用场景及其重要性。cudaGetLastError()用于获取上一步操作的错误信息，而cudaDeviceSynchronize()则确保所有设备上的任务完成后再继续执行后续操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

// error.cuh

#pragma once
#include <stdio.h>

#define CHECK(call)                                   \
do                                                    \
{                                                     \
    const cudaError_t error_code = call;              \
    if (error_code != cudaSuccess)                    \
    {                                                 \
        printf("CUDA Error:\n");                      \
        printf("    File:       %s\n", __FILE__);     \
        printf("    Line:       %d\n", __LINE__);     \
        printf("    Error code: %d\n", error_code);   \
        printf("    Error text: %s\n",                \
            cudaGetErrorString(error_code));          \
        exit(1);                                      \
    }                                                 \
} while (0)

// check1api.h
#include "error.cuh"
#include <math.h>
#include <stdio.h>
#include <malloc.h>
#include <cuda_runtime_api.h>
#include <cuda_runtime.h>
#include <device_launch_parameters.h>


//const double EPSILON = 1.0e-15;
const double a = 1.23;
const double b = 2.34;
//const double c = 3.57;

void __global__ add(const double* x, const double* y, double* z, const int N);
//void check(const double* z, const int N);

int main(void)
{
	const int N = 10000000;
	const int M = sizeof(double) * N;
	double* h_x = (double*)malloc(M);
	double* h_y = (double*)malloc(M);
	double* h_z = (double*)malloc(M);

	for (int n = 0; n < N; ++n) {
		h_x[n] = a;
		h_y[n] = b;
	}

	double* d_x, * d_y, * d_z;
	CHECK(cudaMalloc((void**)&d_x, M));
	CHECK(cudaMalloc((void**)&d_y, M));
	CHECK(cudaMalloc((void**)&d_z, M));

	CHECK(cudaMemcpy(d_x, h_x, M, cudaMemcpyHostToDevice));
	CHECK(cudaMemcpy(d_y, h_y, M, cudaMemcpyHostToDevice));
	

	const int block_size = 1280;
	const int grid_size = N / block_size;
	add << <grid_size, block_size >> > (d_x, d_y, d_z, N);

	CHECK(cudaGetLastError());
	CHECK(cudaDeviceSynchronize());
	CHECK(cudaMemcpy(h_z, d_z, M, cudaMemcpyDeviceToHost));

	//check(h_z, N);

	free(h_x);
	free(h_y);
	free(h_z);
	cudaFree(d_x);
	cudaFree(d_y);
	cudaFree(d_z);

	return 0;

}

void __global__ add(const double* x, const double* y, double* z, const int N) {
	const int n = blockDim.x * blockIdx.x + threadIdx.x;
	if (n < N) {
		z[n] = x[n] + y[n];
	}
}

//void check(const double* z, const int N) {
//	bool has_error = false;
//	for (int n = 0; n < N; ++n) {
//		if (fabs(z[n] - c) > EPSILON)
//			has_error = true;
//	}
//	printf("%s\n", has_error ? "Has error" : "No error");
//
//
//}

重点讲下面两个函数

CHECK(cudaGetLastError());
CHECK(cudaDeviceSynchronize());

cudaGetLastError()用来步骤下面一句之前最后一个错误。
cudaDeviceSynchronize()用来进行同步主机与设备的作用。原因是因为核函数的调用是异步的，即主机发出调用核函数的命令后会立即执行后面的语句，不会等待核函数执行完毕