
LLM推理
文章平均质量分 95
LLM推理
木子CS
LLM Infer, AI Infra, CUDA
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Decoding Attention-LLM推理优化
目前在大部分推理Decoding场景下,性能都优于Flash Attention和Flash Attention v2,此外Decoding Attention还支持GQA(Group Query Attention)/ MQA(Multi Query Attention)和ALiBi(Attention with Linear Biases)推理场景。代码开源在flash_attention_inference。原创 2023-11-01 19:20:48 · 189 阅读 · 0 评论 -
Flash Attention推理性能探究
Attention机制自Transformer发扬光大之后,在Large Language Model(LLM)中同样大放异彩。然而由于Softmax的计算限制,Multi Head Attention(MHA)的计算过程长期处于严重memory bound状态。Flash Attention基于Softmax的数学特性,将MHA的计算融合成一个算子,并采用计算和高速SRAM访存换取低速HBM访存的策略,缓解了memory bound压力,大幅提高了MHA的计算速度。原创 2023-08-28 11:05:04 · 1280 阅读 · 0 评论 -
清华ChatGLM-6B本地GPU推理部署
是一个开源的、支持中英双语的对话语言模型,基于General Language Model(GLM)架构,具有62亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存)。ChatGLM-6B使用了和ChatGPT相似的技术,针对中文问答和对话进行了优化。经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62亿参数的ChatGLM-6B已经能生成相当符合人类偏好的回答。原创 2023-04-24 10:52:58 · 3369 阅读 · 0 评论