- 博客(12)
- 收藏
- 关注
原创 Decoding Attention-LLM推理优化
目前在大部分推理Decoding场景下,性能都优于Flash Attention和Flash Attention v2,此外Decoding Attention还支持GQA(Group Query Attention)/ MQA(Multi Query Attention)和ALiBi(Attention with Linear Biases)推理场景。代码开源在flash_attention_inference。
2023-11-01 19:20:48
166
原创 Nvidia CUDA Core-CUDA HGEMV优化
在深度学习模型特别是LLM(Large Language Model)的推理优化中,HGEMV(Half-precision General Matrix Vector Multiplication)半精度矩阵向量乘法的优化日趋重要。然而Cublas没有提供直接计算HGEMV的API,只能使用cublasGemmEx等相关API来间接调用Tensor Core计算HGEMV。
2023-10-10 10:20:56
791
原创 Flash Attention推理性能探究
Attention机制自Transformer发扬光大之后,在Large Language Model(LLM)中同样大放异彩。然而由于Softmax的计算限制,Multi Head Attention(MHA)的计算过程长期处于严重memory bound状态。Flash Attention基于Softmax的数学特性,将MHA的计算融合成一个算子,并采用计算和高速SRAM访存换取低速HBM访存的策略,缓解了memory bound压力,大幅提高了MHA的计算速度。
2023-08-28 11:05:04
1160
原创 Nvidia Tensor Core-CUDA HGEMM优化进阶
GEMM(General Matrix Multiplication)矩阵乘法是深度学习中最常用且最耗时的算法之一,特别是在CNN、RNN、Transformer等领域中。在这些领域中,大量的矩阵乘法操作需要被快速计算和处理。因此,高效的矩阵乘法实现对于深度学习任务的性能和准确性至关重要。
2023-07-14 18:02:44
2130
1
原创 清华ChatGLM-6B本地GPU推理部署
是一个开源的、支持中英双语的对话语言模型,基于General Language Model(GLM)架构,具有62亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存)。ChatGLM-6B使用了和ChatGPT相似的技术,针对中文问答和对话进行了优化。经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62亿参数的ChatGLM-6B已经能生成相当符合人类偏好的回答。
2023-04-24 10:52:58
3307
原创 Nvidia GPU Virtual Memory Management
在CUDA 10.2中引入VMM API为应用程序提供了一种直接管理统一虚拟地址空间的方法,可以将显存的虚拟地址和物理地址解耦,允许编程人员分别处理它们。VMM API允许编程人员在合适的时候将显存的虚拟地址与物理地址进行映射和解映射。借助VMM API可以更好地解决动态调整显存大小的需求,只需要申请额外的物理地址,再与原始虚拟地址扩展的空间进行映射,既不需要更换追踪的显存地址,也不需要将数据从原始显存拷贝到新显存。
2023-04-21 18:29:08
1024
原创 Nvidia Tensor Core-MMA PTX编程入门
对于计算能力在7.0及以上的CUDA设备,可以使用MMA PTX指令调用Tensor Core,支持形如D = AB + C的混合精度的矩阵乘运算。
2023-04-14 19:02:18
11782
原创 Nvidia Tensor Core-WMMA API编程入门
对于计算能力在7.0及以上的CUDA设备,可以使用CUDA C++ API调用Tensor Core,支持形如D = AB + C的混合精度的矩阵乘运算。
2023-04-11 00:02:00
3329
4
原创 Nvidia GPU热迁移-Singularity
在GPU虚拟化和池化的加持下,可以显著提高集群的GPU利用率,同时也可以较好地实现弹性伸缩。但有时会遇到需要GPU资源再分配的场景,此时亟需集群拥有GPU任务热迁移的能力。
2023-04-10 00:11:40
846
1
原创 Nvidia Tensor Core初探
在基于深度学习卷积网络的图像处理领域,作为计算密集型的卷积算子一直都是工程优化的重点,而卷积计算一般转化为矩阵乘运算,所以优化矩阵乘运算自然成为深度学习框架最为关心的优化方向之一。鉴于此,Nvidia官方给出了一套硬件解决方案,即Tensor Core,可加速矩阵乘运算,实现混合精度计算,在保持准确性的同时提高吞吐量。
2023-04-07 21:13:08
2870
1
原创 Nvidia GPU池化-远程GPU
Nvidia GPU得益于在深度学习领域强大的计算能力,使其在数据中心常年处于绝对的统治地位。尽管借助GPU虚拟化实现多任务混布,提高了GPU的利用率,缓解了长尾效应,但是GPU利用率的绝对值还是不高,长尾现象依然存在。网卡池化、存储池化、内存池化、CPU池化等一系列相近基础设施领域的技术演进,让大家对GPU池化也产生了一些想法。
2023-04-03 19:10:57
1775
3
原创 Nvidia GPU虚拟化
随着Nvidia GPU在渲染、编解码和计算领域发挥着越来越重要的作用,各大软件厂商对于Nvidia GPU的研究也越来越深入,尽管Nvidia倾向于生态闭源,但受制于极大的硬件成本压力,提升GPU利用率、压榨GPU性能逐渐成为基础设施领域关注的焦点。自然地,为了追求GPU上显存资源和算力资源的时分复用和空分复用,大家都开始考虑软件定义GPU,GPU虚拟化应运而生。
2023-03-31 19:02:42
2677
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人