CUDA编程示例：扭曲矩阵乘法的__nv_bfloat16GEMM计算

最新推荐文章于 2025-06-30 09:05:46 发布

心之飞翼

最新推荐文章于 2025-06-30 09:05:46 发布

阅读量296

点赞数 1

CC 4.0 BY-SA版权

文章标签：矩阵线性代数编程

本文链接：https://blog.youkuaiyun.com/TechO_O/article/details/132704151

编程专栏收录该内容

407 篇文章 ¥29.90 ¥99.00

订阅专栏

该博客介绍了使用CUDA编程执行扭曲矩阵乘法的示例，特别是通过__nv_bfloat16GEMM函数进行16位浮点数计算，以加速矩阵运算。文章详细阐述了矩阵尺寸定义、内存分配、数据传输、线程配置、内核执行以及结果回传的过程，同时提到了__float2bfloat16和__bfloat162float函数在数据类型转换中的应用。

CUDA编程示例：扭曲矩阵乘法的__nv_bfloat16GEMM计算

在本文中，我们将介绍一个使用CUDA编程实现扭曲矩阵乘法的示例。我们将利用CUDA的__nv_bfloat16GEMM函数来执行矩阵乘法操作。下面是完整的源代码示例：

#include <iostream>
#include <cuda.h>
#include <cuda_bf16.h>

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

心之飞翼

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

CUDA：扭曲矩阵乘法的__nv_bfloat16（E8M7）GEMM计算的实例

希望我的博客，能帮上你解决学习中工作中所遇到的问题

12-21

633

CUDA：扭曲矩阵乘法的__nv_bfloat16（E8M7）GEMM计算的实例

计算两个16位浮点型向量的标量积的实例

DevPulse的博客

09-20

200

然后，我们定义并配置CUDA核函数的执行配置，包括块的数量和每个块中的线程数量。在核函数中，我们首先计算当前线程的索引，并使用共享内存加载向量的元素。接下来，我们将给出一个示例的CUDA程序，用于计算两个16位浮点型向量的标量积。在上面的代码中，我们首先定义了向量的长度为1024，可以根据实际需求进行调整。函数中，我们首先定义并初始化向量A和B，并在设备上分配内存用于存储向量。请注意，上述代码中的一些变量和数组是示例，您需要根据您的实际需求进行相应的修改和调整。函数中，我们使用了CUDA核函数的。

参与评论您还未登录，请先登录后发表或查看评论

CUDA原子操作【参加CUDA线上训练营】

Mr_8j的博客

02-09

533

CUDA原子操作及求和计算【参加CUDA线上训练营】

用__nv_bfloat16GEMM计算扭曲矩阵乘法的例子

PixelProX的博客

08-23

240

需要注意的是，由于__nv_bfloat16GEMM方法目前只支持单精度浮点数与bfloat16格式的乘法，因此我们需要将COO格式的稀疏矩阵中的数值类型转换为bfloat16格式，并使用CUDA的half类型进行存储和计算。当然，许多情况下我们需要处理的都是大规模的矩阵，而这其中很多矩阵都非常稀疏，却需要耗费大量的存储空间和计算资源。在本文中，我们将结合NVIDIA提供的__nv_bfloat16GEMM方法，通过一个实例来演示如何采用基于扭曲矩阵乘法的方法来高效计算稀疏矩阵的矩阵乘法。

解决NX-AI/xlstm项目中bfloat16相关CUDA编译错误的技术指南

gitblog_07940的博客

06-30

594

在NX-AI/xlstm项目中，许多用户在使用CUDA编译时遇到了与bfloat16数据类型相关的错误。这些错误主要出现在尝试构建包含xLSTM模块的项目时，错误信息涉及`__halves2bfloat162`、`__low2bfloat16`等CUDA函数的未定义问题。 ## 错误分析典型的编译错误包括： 1. `__halves2bfloat162`未定义 2. `__nv_bfloat...

CUDA编程之CUDA Sample-3_CUDA_Features-cudaTensorCoreGemm

翊桐公羽的博客

07-12

1115

CUDA sample中3_CUDA_Features里包含一些展示 CUDA 各种特性的sample。cudaTensorCoreGemm这个sample展示了如何使用 WMMA (Warp Matrix Multiply Accumulate) API 执行矩阵乘法。

[CUDA] gemm优化之mma

头狼博客

01-15

677

主要说明cuda gemm中使用mma的两个方式

CUDA使用FP16进行半精度运算

热门推荐

qq_25147897的博客

01-13

3万+

cudaSamples里面0_Simple里面有个关于fp16的例子，做fp16矢量的点积的。自己简单实现一个，做个对自己的测试。1、关于fp16定义CUDA 7.5 新特性介绍 -- FP16（即fp16是cuda7.5引入的，需要计算能力达到5.3或以上）16-bit Floating Point (半精度浮点)从 Tegra X1 开始，NVIDIA 的 GPU 将支持原生的 FP16 计算...

CUDA实例：计算两个16位浮点型向量的标量积

DevPulse的博客

08-24

366

然后，我们使用“Dot”函数来计算当前线程处理的向量元素的标量积，并将结果存储在“result”数组中。然后，我们使用CUDA的内置函数“__fmul_rn”计算两个32位浮点数的乘积，并使用CUDA的内置函数“__hadd”计算所有乘积的总和。在这个函数中，我们使用CUDA的内置函数“__fmul_rn”来计算两个16位浮点型数的乘积，并使用CUDA的内置函数“__hadd”来计算所有乘积的总和。现在我们已经定义了“Dot”函数，我们可以编写一个CUDA核函数来计算两个16位浮点型向量的标量积。

CUDA：GELU算子的实现（FP16）

weixin_43308899的博客

12-28

3061

本文是通过CUDA实现GELU算子,输入和输出的数据是FP16类型的，通过自定义向量结构体进行向量化访存的方式来提高算子工作效率，并会详细解释相关代码。

float32转float16

feng__shuai的博客

12-01

7867

可以看到移动位数=exponent-15= -2, 所以fraction的小数点需要往左浮动2位，fraction就编程了0.010101010101，计算结果为pow(2, -2) + pow(2, -4) + pow(2, -6)+pow(2, -8) + pow(2, -10)+ pow(2, -12) ≈ 0.333252。流程就把fp32的整数部分转为二进制，小数部分转为二进制，算出小数点浮动的位置。可以知道往左浮动了2位，所以exponent=13, 对应二进制为01101。

cuda sample(2)矩阵乘法

qq_43594926的博客

07-07

917

/ CUDA示例演示了一个__nv_bfloat16 (E8M7) GEMM计算，使用的是CUDA 11.0中引入的和。

Tensor Core加速CUDA矩阵计算

专注于人工智能领域的小何尚

06-02

4066

C++ warp矩阵运算利用Tensor Cores来加速形式的矩阵问题。计算能力 7.0 或更高版本的设备的混合精度浮点数据支持这些操作。这需要一个warp中所有线程的合作。此外，仅当条件在整个 warp 中的计算结果相同时，才允许在条件代码中执行这些操作，否则代码执行可能会挂起。以下所有函数和类型都在命名空间中定义。 Sub-byte操作被视为预览版，即它们的数据结构和 API 可能会发生变化，并且可能与未来版本不兼容。

bfloat16和float16 的区别和联系以及训练过程中如何选择

陈开心的博客

02-06

3294

bfloat16（Brain Floating Point 16）和float16（半精度浮点数）都是，它们的主要作用是和，特别适用于深度学习中的大规模模型训练。尽管它们都属于 16 位格式，但在等方面存在关键差异。下面我用简单的方式解释它们的区别和联系。🚀。

混合精度训练amp，torch.cuda.amp.autocast():

Drug discovery

07-17

2万+

1 需要什么GPU：在上面讲述了为什么利用混合精度加速，需要拥有 TensorCore 的GPU 0x02. 基础理论：在日常中深度学习的系统，一般使用的是单精度 float（Single-Precision）浮点表示。在了解混合精度训练之前，我们需要先对其中的主角半精度『float16』进行一定的理论知识学习。 float vs float16 的组成bitmap 在上图可以看到，与单精度float（32bit，4个字节）相比，半进度float16仅有16bit，2个字节组成。天然的存储

BFloat16精度

lbai7134的博客

12-06

4662

BF16

手写cuda算子：实现GPU+CPU FP32/FP16/INT8精度矩阵加法运算（一）

weixin_55083979的博客

03-09

1573

使用模板函数实现FP32+FP16+INT8矩阵加法运算，不再重复定义函数，重复分配内存·

transformers 不同精度float16、bfloat16、float32加载模型对比

weixin_42357472的博客

06-17

3585

float16与bfloat16加载空间需要差不多，差不多GPU需要15G多。GPU需要19G多，精度会高些32bit，空间大些。默认bfloat16。

实战大规模GPU集群推理部署

m0_59235245的博客

07-01

4688

最近在Tesla V100 32GB 8GPUs x 1000 nodes的大规模集群的工作中，收获不少宝贵一手经验——【硬件问题】首先了解到，在这样规模的集群下，GPU硬件本身出问题的几率很大。第一类问题是ECC，数据校验错误。数据校验错误那是内存存储出了问题。第二类是AsyncEngineDeadError：这个虽然是vLLM抛出的错误(Error)，具体原因不明，但似乎跟GPU密切相关。很可能也是GPU有硬件问题。

RuntimeError: CUDA error: CUBLAS_STATUS_NOT_SUPPORTED when calling `cublasGemmEx( handle, opa, opb, m, n, k, alpha_ptr, a, CUDA_R_16F, lda, b, CUDA_R_16F, ldb, beta_ptr, c, std::is_same_v<C_Dtype, float> ? CUDA_R_32F : CUDA_R_16F, ldc, compute_type, CUBLAS_GEMM_DEFAULT_TENSOR_OP)`

最新发布

12-10

<think>我们正在处理一个CUDA相关的运行时错误，具体是调用cublasGemmEx函数时出现了CUBLAS_STATUS_NOT_SUPPORTED错误。根据引用[1]和引用[3]中提到的类似错误（CUBLAS_STATUS_INVALID_VALUE）的解决方案，我们可以推测可能的解决方法。此外，引用[4]提到了CUBLAS_STATUS_INTERNAL_ERROR，虽然错误类型不同，但可能相关。错误信息中提到了数据类型（如CUDA_R_16F表示半精度浮点数）和计算类型（compute_type）以及张量核心操作（CUBLAS_GEMM_DEFAULT_TENSOR_OP）。这个错误通常表明当前的操作（例如，使用半精度数据和张量核心）不被当前配置的CUDA环境支持。根据引用[2]的解决方案，有时通过卸载特定的cublas包（如nvidia-cublas-cu11）可以解决问题，但需要谨慎，因为可能会影响其他程序。此外，引用[3]和引用[4]提到更换显卡或者修改环境（如降低batch size）可能有效，但用户已经尝试减小batch size无效。考虑到错误是NOT_SUPPORTED，可能的原因包括： 1. GPU架构不支持所请求的操作（例如，使用半精度张量核心操作但GPU计算能力不足）。 2. CUDA或cuBLAS版本不兼容。 3. 程序中的参数设置（如数据类型、矩阵尺寸等）不符合cuBLAS的要求。解决方案建议： 1. 检查GPU的计算能力：确保GPU支持半精度（FP16）和张量核心操作。例如，NVIDIA的Volta架构（如V100）及以后的架构（Turing, Ampere）支持张量核心和FP16。如果GPU较旧（如Pascal或更早），则可能不支持，需要更换硬件或使用单精度（FP32）。 2. 更新CUDA和cuBLAS版本：确保CUDA和cuDNN版本与程序要求的版本一致。有时升级或降级CUDA工具包可以解决问题。 3. 修改代码使用不同的数据类型或计算类型：如果可能，尝试将计算从半精度（FP16）改为单精度（FP32），因为旧版cuBLAS可能不支持某些混合精度操作。例如，将输入和输出的数据类型改为float（CUDA_R_32F）。 4. 检查矩阵尺寸：确保矩阵乘法中的维度（m, n, k）是合法的，并且满足cuBLAS的要求（例如，对于某些操作，维度可能需要是特定值的倍数）。 5. 环境问题：如引用[2]所述，有时卸载冲突的cuBLAS包可能有效。但请注意，这可能会影响其他程序。可以尝试在虚拟环境中重新安装正确版本的PyTorch或TensorFlow。 6. 使用环境变量禁用张量核心操作：可以尝试设置环境变量`CUBLAS_WORKSPACE_CONFIG`和`CUDA_CACHE_PATH`，或者禁用张量核心（如果错误是由于张量核心引起）。例如，设置环境变量： ```bash export CUBLAS_WORKSPACE_CONFIG=:4096:8 ``` 或者 ```bash export CUBLAS_WORKSPACE_CONFIG=:16:8 ``` 另外，可以尝试设置环境变量禁用张量核心： ```bash export NVIDIA_TF32_OVERRIDE=0 # 在Ampere架构上，这会禁用TF32（一种张量核心加速的格式） ``` 注意：TF32是Ampere架构引入的，如果代码中使用了TF32，而环境不支持或配置错误，可能导致此问题。 7. 参考引用[4]的做法，如果有多张显卡，尝试换一张显卡运行。针对用户的具体错误信息，我们可以给出以下步骤： ### 解决步骤 1. **检查GPU计算能力**：运行以下Python代码查看GPU信息，并确认其计算能力是否支持半精度张量核心操作（通常需要计算能力>=7.0）： ```python import torch print(torch.cuda.get_device_name(0)) print(torch.cuda.get_device_capability(0)) ``` 2. **检查CUDA和cuDNN版本**： ```python print(torch.version.cuda) print(torch.backends.cudnn.version()) ``` 3. **尝试禁用FP16或使用FP32**：在代码中查找是否设置了半精度（如使用FP16），尝试改为单精度（FP32）。例如，在PyTorch中，如果使用了`.half()`方法将模型或数据转换为半精度，可以尝试移除。 4. **设置环境变量**： - 在运行程序前，尝试设置环境变量： ```bash export CUBLAS_WORKSPACE_CONFIG=:4096:8 export NVIDIA_TF32_OVERRIDE=0 ``` 5. **更新或重装PyTorch/CUDA**：确保安装的PyTorch版本与CUDA版本匹配。可以到PyTorch官网使用正确的命令安装。 6. **卸载冲突的包**：如引用[2]所述，尝试卸载可能冲突的包（谨慎操作，建议在虚拟环境中）： ```bash pip uninstall nvidia-cublas-cu11 ``` 但注意，这可能会导致其他问题，因此最好在虚拟环境中尝试。 7. **调整矩阵乘法的参数**：检查代码中调用`cublasGemmEx`的地方，确保所有参数（特别是矩阵的维度）是有效的。例如，某些cuBLAS操作要求矩阵的维度是8的倍数（对于张量核心）。 8. **使用不同的GPU**：如果有多个GPU，尝试指定另一张显卡运行程序（如使用CUDA_VISIBLE_DEVICES）。由于错误信息中提到了`std::is_same_v<C_Dtype, float> ? CUDA_R_32F : CUDA_R_16F`，说明输出类型可能是FP32或FP16。如果当前操作要求输出为FP32，而硬件或驱动不支持这种混合精度，则可能出现问题。因此，尝试强制使用FP32可能有效。 ### 总结根据引用[1][2][3][4]的经验，解决此类cuBLAS错误通常需要结合环境配置、代码修改和硬件检查。建议从检查硬件支持开始，然后逐步尝试环境配置和代码调整。 §§相关问题§§ 1. 如何检查NVIDIA GPU的计算能力？ 2. 如何在PyTorch中设置使用单精度（FP32）而非半精度（FP16）？ 3. 如何正确设置环境变量`CUBLAS_WORKSPACE_CONFIG`？ 4. 如何卸载和重新安装特定版本的PyTorch以匹配CUDA版本？ </think> 根据提供的引用信息和错误类型，解决`RuntimeError: CUDA error: CUBLAS_STATUS_NOT_SUPPORTED`错误的核心方案如下： ### 解决方案步骤 1. **验证GPU架构支持** - 该错误通常由GPU硬件不支持混合精度计算（FP16/FP32）或张量核心操作引起 - 运行以下代码检查GPU计算能力（需≥7.0）： ```python import torch print(f"GPU: {torch.cuda.get_device_name(0)}") print(f"计算能力: {torch.cuda.get_device_capability(0)}") ``` - 若输出如`(7, 5)`（RTX 30系列）或更高则支持，若为`(6, 1)`（GTX 10系列）等旧架构需更换硬件[^1][^3] 2. **强制使用单精度计算** 在代码中添加环境变量设置（优先尝试）： ```python import os os.environ['NVIDIA_TF32_OVERRIDE'] = '0' # 禁用TF32加速 os.environ['CUDA_LAUNCH_BLOCKING'] = '1' # 定位具体错误行 ``` 3. **更新CUDA驱动和库** ```bash # 更新NVIDIA驱动（需≥450.80.02） sudo apt-get install --upgrade nvidia-driver-510 # 更新CUDA工具包（需≥11.0） conda install cudatoolkit=11.3 -c pytorch ``` 4. **卸载冲突的cuBLAS包**（参考引用[2]） ```bash pip uninstall nvidia-cublas-cu11 -y pip install nvidia-cublas-cu113 --upgrade # 安装指定版本 ``` 5. **修改模型精度设置** 在模型初始化代码中显式设置数据类型： ```python model = MyModel().to(torch.float32) # 强制使用FP32 # 避免使用 model.half() 或 torch.autocast ``` 6. **更换GPU设备**（参考引用[4]）若多GPU可用，切换支持张量核心的显卡： ```python torch.cuda.set_device(1) # 改用第二个GPU ``` ### 关键原因分析 - **硬件限制**：旧GPU（如Pascal架构）不支持`FP16+TensorCore`运算组合[^1] - **精度冲突**：`cublasGemmEx`调用中混合`CUDA_R_16F`输入和`CUDA_R_32F`输出 - **驱动不兼容**：CUDA/cuBLAS版本与操作要求不匹配[^2][^4] > **验证方案**：运行简单矩阵乘法测试： > ```python > a = torch.randn(256,256, dtype=torch.float32).cuda() > b = torch.randn(256,256, dtype=torch.float32).cuda() > torch.mm(a, b) # 应无报错 > ```