Mat for Adding and Multiple by cuda

最新推荐文章于 2023-12-22 09:41:58 发布

原创最新推荐文章于 2023-12-22 09:41:58 发布 · 846 阅读

0 ·

CC 4.0 BY-SA版权

Linux 专栏收录该内容

12 篇文章

订阅专栏

本文介绍了一个使用CUDA实现的简单矩阵加法和乘法程序。通过定义内核函数MatAdd和MatMultiple，可以在GPU上并行计算两个矩阵的加法和乘法结果。示例中给出了具体的CUDA代码实现，并演示了如何在主机端分配内存、复制数据到设备端、调用内核函数进行计算以及将结果复制回主机。

部署运行你感兴趣的模型镜像

Mat for Adding and Multiple by cuda

code:

#include <iostream>
#include <cuda.h>

using namespace std;

#define N 2

__global__ void MatAdd(float A[N][N], float B[N][N], float C[N][N])
{
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    int j = blockIdx.y * blockDim.y + threadIdx.y;
    if(i < N && j < N)
    {
        C[i][j] = A[i][j] + B[i][j];

    }
}

__global__ void MatMultiple(float A[N][N], float B[N][N], float C[N][N])
{
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    int j = blockIdx.y * blockDim.y + threadIdx.y;
    float sum = 0;
    if(i < N && j < N)
    {
        for(int k =0 ; k < N; k++)
        {
            sum = sum + A[i][k] * B[k][j];
        }
    }
    C[i][j] = sum;
}

int main()
{
    float A[N][N] = {{ 1,1},{2,2}};
    float B[N][N] = {{ 3,3},{4,4}};
    float C[N][N] = {0};

    float (*dev_a)[2], (*dev_b)[2], (*dev_c)[2];

    cudaMalloc((void**) &dev_a, N * N * sizeof(float));
    cudaMalloc((void**) &dev_b, N * N * sizeof(float));
    cudaMalloc((void**) &dev_c, N * N * sizeof(float));

    cudaMemcpy(dev_a, A, N*N*sizeof(float), cudaMemcpyHostToDevice);
    cudaMemcpy(dev_b, B, N*N*sizeof(float), cudaMemcpyHostToDevice);


    dim3 threadsPerBlock(1,1);
    dim3 numBlocks(N/threadsPerBlock.x, N/threadsPerBlock.y);
    //MatAdd<<<numBlocks,threadsPerBlock>>>(dev_a,dev_b,dev_c);

    //cudaMemcpy(C, dev_c, N * N * sizeof(float), cudaMemcpyDeviceToHost);
    /*
    for(int i = 0 ; i < N; i++)
    {
        for(int j = 0; j < N; j++)
        {
            cout << C[i][j] << "  ";
        }
        cout << endl;
    }
    */


    MatMultiple<<<numBlocks,threadsPerBlock>>>(dev_a,dev_b,dev_c);  
    cudaMemcpy(C, dev_c, N * N * sizeof(float), cudaMemcpyDeviceToHost);

    for(int i = 0 ; i < N; i++)
    {
        for(int j = 0; j < N; j++)
        {
            cout << C[i][j] << "  ";
        }
        cout << endl;
    }
    return 0;
}