cuda 简单数组运算

该博客介绍了如何使用CUDA进行简单的数组平方运算。通过CUDA C++代码展示了如何分配GPU内存,将数据从主机传送到设备,执行内核函数`sumOfSquares`计算每个元素的平方,并将结果返回到主机。最后,博主比较了GPU计算得到的平方和与CPU计算结果的一致性,验证了CUDA计算的正确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include "device_functions.h"
#include <stdio.h>
#include <stdlib.h>
#include <iostream>
#define data_size 1026
#define thread_num 256
using namespace std;
__global__ static void sumOfSquares(int *d_idata,int *d_odata)
{
	const int tid=threadIdx.x;
	printf("%d ",tid);
	d_odata[tid]=d_idata[tid]*d_idata[tid];
	
	__syncthreads();
	

}
int main()
{
	int h_idata [data_size];
	for (int i = 0; i < data_size; i ++)
	{
		h_idata[i] = i;//rand()%10;

	}

	int * d_idata;
	int * d_odata;
	cudaMalloc((void **)&d_idata,sizeof(int)*data_size);
	cudaMalloc((void **)&d_odata,sizeof(int)*data_size);


	cudaMemcpy(d_idata,h_idata,sizeof(int)*data_size,cudaMemcpyHostToDevice);

	sumOfSquares<<<1,data_size,0>>>(d_idata,d_odata);
	
	int gpu_sum[data_size];
	cudaMemcpy(&gpu_sum,d_odata,sizeof(int)*data_size,cudaMemcpyDeviceToHost);
	cudaFree(d_idata);
	cudaFree(d_odata);
	int final_gpu_sum=0;
	for (int i=0;i<data_size;i++)
	{
		final_gpu_sum+=gpu_sum[i];

	}
	printf("final_gpu_sum=%d\n",final_gpu_sum);


	int cpu_sum = 0; 
	for(int i = 0; i < data_size; i++)
	{ 
		cpu_sum+= h_idata[i] * h_idata[i]; 
	} 
	printf("cpu_sum: %d\n", cpu_sum);
	
    cin.get();
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值