CUDA系列三：矩阵相乘

最新推荐文章于 2025-09-05 15:00:00 发布

原创

最新推荐文章于 2025-09-05 15:00:00 发布 · 1.6w 阅读

80 ·

CC 4.0 BY-SA版权

本博文主要讲解下基于cuda的矩阵相乘，cuda特别擅长的就是矩阵乘法，而且也比较容易实现。通过矩阵乘法的实现，可以比较容易理解cuda的核心思想。网上也有很多基于cuda实现的矩阵乘法，但是感觉都不完成，要不就是有错，本文给出的代码都是经过验证可行的，希望能够帮助到大家。

矩阵乘法实现方式一：矩阵乘法的逐点实现方式，具体如下图所示

对应实现代码：

#include <stdio.h>
#include <stdlib.h>
#include <cuda_runtime.h>


__global__ void MatMul(int *M,int *N,int *P,int width)
{
	int x = threadIdx.x;
	int y = threadIdx.y;
	
	float Pervalue = 0;
	
	float elem1 = 0.0,elem2 = 0.0,value = 0.0;
	for(int i = 0;i < width;i++)
	{
		elem1 = M[y * width + i];//取M矩阵的一行
		elem2 = N[i * width + x];//取N矩阵的一列
		
		value += elem1 * elem2;//求和
	}
	
	P[y * width + x] = value;
}

int main()
{
	const int ND = 30;
	int a[ND][ND],b[ND][ND],c[ND][ND];
	int *M,*N,*P;
	
	int width = ND;
	int NUM = 900;
	dim3 blockS