LLM
文章平均质量分 78
CYuNuo
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Attention 的发展
目前学术界和工业界提出的注意力(Attention)变种已超过200 种,但根据应用场景和核心技术路径的差异,可归纳为以下六大类(含50 + 主流变种)。一、基础型注意力(19 种)原创 2025-11-02 08:40:46 · 604 阅读 · 0 评论 -
LLM大模型架构概述
差异在输入与计算策略:二者的区别源于输入序列长度(长序列 vs 单个 token)和注意力计算的范围(全序列依赖 vs 基于缓存的增量计算),目的是在保证生成质量的前提下,通过缓存机制大幅提升 decode 阶段的效率(避免重复计算历史序列)。decode 阶段:输入是单个新 token,自注意力机制只需计算该 token 对所有历史 token 的依赖(借助 prefill 阶段缓存的 Key/Value),无需重新计算历史 token 的注意力,大幅节省计算量。原创 2025-08-22 09:41:12 · 1399 阅读 · 0 评论 -
LLM推理性能评估
推理速度评估的核心是延迟和吞吐量,需在固定硬件和输入条件下测试,同时结合模型优化技术和实际应用场景(如实时对话需低延迟,批量处理需高吞吐量)。推理速度是衡量大模型实际部署效率的关键指标,直接影响用户体验(如响应延迟)和系统成本(如算力消耗)。硬件:GPU(如 A100 速度远快于 T4)、CPU(多核高频 CPU 更适合轻量模型)、内存 / 显存带宽(带宽不足会导致数据传输瓶颈)。模型本身:参数量(参数量越大,计算量通常越高,延迟越长)、架构(如 MoE 模型的路由机制可能增加计算开销)。原创 2025-08-22 05:55:15 · 552 阅读 · 0 评论 -
attention 概述
原创 2025-08-21 09:44:55 · 659 阅读 · 0 评论 -
多头注意力机制概述
一、现有优化手段的技术图谱。原创 2025-08-21 09:21:08 · 640 阅读 · 0 评论 -
LLM推理优化概述
彩云科技团队提出的动态组合机制解除了 MHA 中查询(Q)与键值(KV)的固定绑定,允许不同头的 QK 和 OV 回路动态组合,使小模型(如 6.9B)性能超越更大模型(如 12B)。KV 缓存增长带来的内存压力:LLM 推理的解码阶段,KV 缓存会随着序列长度和批处理大小的增 加而不断增长,其内存占用甚至可能超过模型权重本身,成为推理优化的核心内存瓶颈。从 NLP 到 CV 的注意力机制迁移需重新设计位置编码和 KV 交互方式,如 CLIP-MMA 在图像生成任务中的推理速度仅为文本任务的 60%。原创 2025-08-20 15:56:36 · 289 阅读 · 0 评论
分享