hipBLASLt 0.7.0发布：ROCm 6.1.5中的高性能矩阵计算新特性-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01304/article/details/148526197

hipBLASLt 0.7.0发布：ROCm 6.1.5中的高性能矩阵计算新特性

hipBLASLt hipBLASLt is a library that provides general matrix-matrix operations with a flexible API and extends functionalities beyond a traditional BLAS library 项目地址: https://gitcode.com/gh_mirrors/hi/hipBLASLt

hipBLASLt是AMD ROCm生态系统中专注于高性能矩阵计算的核心库，作为hipBLAS的轻量级扩展，它针对现代GPU架构进行了深度优化。该库特别适合需要低延迟和高吞吐量的矩阵运算场景，如深度学习训练和推理、科学计算等。最新发布的hipBLASLt 0.7.0版本作为ROCm 6.1.5的一部分，带来了多项重要功能增强和扩展API支持。

新增扩展API功能

本次更新引入了三个重要的扩展API，进一步丰富了hipBLASLt的功能集：

hipblasltExtSoftmax扩展API：提供了高效的softmax操作实现，特别优化了在GPU上的计算性能。这个API对于深度学习中的注意力机制等场景尤为重要，能够显著提升transformer类模型的训练和推理效率。
hipblasltExtLayerNorm扩展API：实现了层归一化操作，这是现代神经网络架构中的关键组件。该API针对GPU计算特点进行了优化，相比通用实现能够获得更好的性能表现。
hipblasltExtAMax扩展API：提供了计算数组中绝对值最大元素的功能，这在数值计算和机器学习中都有广泛应用，如特征缩放、梯度裁剪等场景。