
CUDA
文章平均质量分 94
图波列夫
这个作者很懒,什么都没留下…
展开
-
cuBLAS 3.1.5. Narrow Precision Data Types Usage
cuBLAS我们这里所说的最初是作为8位浮点数据类型(FP8)随 Ada 和 Hopper GPU(计算能力8.9及以上)引入的,旨在进一步加速矩阵乘法。:除非另有说明,FP8 指的是和两种数据类型。随着 Blackwell GPU(计算能力10.0及以上)的推出,cuBLAS 增加了对4位浮点数据类型 (FP4)的支持。E2和 M1分别表示2位指数和1位尾数。更多详细信息,请参阅。为了保持精度,窄精度数据在计算前需要进行缩放或反量化,并在计算后可能需要进行量化。翻译 2025-03-27 19:12:23 · 51 阅读 · 0 评论 -
CUDA C++ Programming Guide 7.26. Asynchronous Barrier
NVIDIA C++ 标准库引入了 std::barrier 的 GPU 实现。除了std::barrier的实现之外,该库还提供了扩展功能,允许用户指定屏障对象的作用范围。屏障 API 的作用范围在 Thread Scopes 中有详细说明。 计算能力为8.0或更高的设备为屏障操作提供了硬件加速,并将其与memcpy_async 功能集成。 在计算能力低于8.0但不低于7.0的设备上,这些屏障可以使用但没有硬件加速。翻译 2024-09-11 09:30:16 · 528 阅读 · 0 评论