CUDA之矩阵乘法——globalmemory

最新推荐文章于 2023-10-13 12:23:20 发布

原创

最新推荐文章于 2023-10-13 12:23:20 发布 · 1.3k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#cuda

本文介绍了在CUDA中进行矩阵乘法时如何使用global memory，并详细记录了遇到的报错及其修正过程。从错误提示到修复代码，最终实现编译通过的CUDA矩阵乘法程序。

CUDA 矩阵乘法

使用global memory

报错

错误 17 error : no instance of overloaded function “cudaMalloc” matches the argument list E:\Niki\MVDR_BTR\MVDR_BTR\MatrixMulOnDevice.cu 16
修正：把CUDAcudaMalloc(&Nd, size);改成cudaMalloc((void**)&Nd, size);
错误 17 error : argument of type “float” is incompatible with parameter of type “void *” E:\Niki\MVDR_BTR\MVDR_BTR\MatrixMulOnDevice.cu 17
修正：把float Md, *Nd, *Pd; 改成float Md, Nd, Pd;

编译通过的代码


#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include <stdio.h>

__global__ void MatrixMulKernel(float* Md, float* Nd, float* Pd, int Width);

void MatrixMulOnDevice(float* M, float* N, float* P, int Width)
{