CUDA之矩阵乘法——TILE&sharedmemory

最新推荐文章于 2025-12-06 12:47:13 发布

原创

最新推荐文章于 2025-12-06 12:47:13 发布 · 3.6k 阅读

5 ·

CC 4.0 BY-SA版权

本文介绍了如何在CUDA中通过TILE分块和shared memory技术实现矩阵乘法，通过代码示例展示并行计算过程，并验证了结果与MATLAB计算的一致性。

CUDA 矩阵乘法

将输入数据分成很多个TILE使用shared memory进行并行计算

矩阵乘法分块计算

代码

#include "device_functions.h"
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>
#include <iostream>
typedef struct {
    int width;
    int height;
    int stride;
    float* elements;
} Matrix;

#define BLOCK_SIZE  16
#define N           3072

__device__ float GetElement(const Matrix A, int row, int col) {
    return A.elements[row * A.stride + col];
}

__device__ void SetElement(Matrix A, int row, int col, float value) {
    A.elements[row * A.stride + col] = value;
}

__device__ Matrix GetSubMatrix(Matrix A, int