模型部署框架
文章平均质量分 96
丁学文武
打球、跑步、徒步、露营️、骑行、滑雪️、游泳、冲浪
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
揭秘大模型黑科技:为什么 vLLM 跑得又快又省显存?靠的就是这俩神器(PagedAttention、Continuous Batching)
vLLM 通过两大核心技术 PagedAttention 和 Continuous Batching 实现了高效推理。PagedAttention 借鉴操作系统分页机制,将 KV Cache 切分为小块动态管理,大幅提升显存利用率;Continuous Batching 则实现动态请求调度,让 GPU 保持满载状态。二者协同工作,既解决了显存浪费问题,又优化了计算吞吐量,使大模型推理效率显著提升。原创 2025-10-11 07:00:00 · 1579 阅读 · 0 评论 -
大模型压缩:4-低秩因子分解的不同方式对比-原理解析-实战案例
文章摘要(148字): 本文系统探讨了低秩因子分解在大模型压缩中的应用,对比了多种分解方法及其实现原理。内容涵盖低秩分解的数学基础(如SVD)、权重矩阵分解(3.1-3.3)、注意力机制优化(4.1-4.3)及分块策略(第5章)。重点分析了参数高效微调方法(如LoRA)的原理与变体(第6章),以及其与模型蒸馏的结合(第7章)。通过实战案例(第8章)和性能对比(第9章),验证了低秩分解在减少参数量、降低计算复杂度方面的优势,为大规模语言模型的高效部署提供了可行方案。原创 2025-09-23 08:45:00 · 1342 阅读 · 0 评论 -
大模型压缩:3-大模型量化剖析-不同方式对比-原理解析-实战案例,RTN、LLM.int8、SmoothQuant、AWQ、AutoAWQ、GPTQ、FP8
大模型量化技术概述与实战 本文系统介绍了大语言模型(LLM)量化技术,涵盖从基础概念到前沿算法的全面解析。主要内容包括: 核心概念: 量化目标:降低显存占用和计算成本,同时保持模型性能 量化方式:训练感知量化(QAT)与训练后量化(PTQ) 量化粒度:逐层、逐通道、逐组等不同粒度选择 量化对象:权重、激活值和KV缓存的量化策略差异 经典算法剖析: RTN:最基础的量化方法,适合小模型 LLM.int8():通过混合精度处理离群值 SmoothQuant:将激活量化难度转移到权重 AWQ:基于激活感知的权重量原创 2025-09-23 08:30:00 · 990 阅读 · 0 评论 -
大模型压缩:2-大模型知识蒸馏技术分享-不同方式对比-原理解析-实战案例(经典知识蒸馏+关系蒸馏)
大模型知识蒸馏技术综述 本文系统介绍了大模型知识蒸馏技术,包括经典知识蒸馏和关系知识蒸馏(RKD)两大方法。经典知识蒸馏通过软标签匹配和温度调节实现知识迁移,而RKD则关注样本间关系保持,能捕获更细粒度的结构信息。文章详细阐述了两种方法的数学原理、实现公式和优势对比,并提供了BERT模型蒸馏的实战案例,包括环境配置、训练脚本和核心代码解析。此外,还对比了多种先进蒸馏方法的特性,分析了知识蒸馏技术的最新发展趋势。该技术可有效压缩大模型,在移动端部署、边缘计算等场景具有重要应用价值。原创 2025-09-22 08:15:00 · 415 阅读 · 0 评论 -
深度解析FlashAttention与PagedAttention:大模型推理优化的双重突破
文章摘要: 本文深入分析了Transformer中注意力机制的性能瓶颈,并系统介绍了FlashAttention与PagedAttention两项突破性优化技术。FlashAttention通过分块计算、在线Softmax算法和重计算机制,将注意力计算的内存访问优化至O(n),在A100上实现7.6倍加速;其后续版本FlashAttention-2/3进一步优化计算流程,在H100上突破PetaFLOP级计算性能。PagedAttention则借鉴操作系统分页思想,创新性地管理KV Cache,解决显存碎片原创 2025-09-17 07:45:00 · 1975 阅读 · 0 评论 -
FlashAttention(V1)深度解析:公式推导+原理+硬件+实现
FlashAttention是一种优化Transformer自注意力层实现的方法,通过分块计算和在线softmax技术,在保持数学等价性的同时显著减少显存访问和计算开销。核心思想是将Q、K、V矩阵分块处理,在片上存储器中完成矩阵乘、softmax等操作,避免生成N×N中间矩阵。该方法采用数值稳定的在线合并策略维护全局softmax,并通过重计算机制在反向传播时重建中间结果。相比标准attention实现,FlashAttention将显存峰值从O(N²)降至O(N),同时减少HBM访问次数,实测显示训练速度原创 2025-09-13 07:45:00 · 1336 阅读 · 0 评论 -
Attention 与 FlashAttention 深入原理剖析-公式推导-FlashAttention(V1/V2/V3)对比-主流大模型应用情况
FlashAttention系列通过分块计算和数值稳定的softmax累计,将Attention的显存复杂度从O(N²)降至接近O(N),解决了长上下文场景下的计算瓶颈。文章从Self-Attention原理出发,详细剖析了FlashAttention三代的演进:V1实现分块计算,V2优化并行策略,V3针对Hopper架构进行硬件级优化(异步计算/FP8)。通过对主流大模型(Llama、GPT等)的实践分析,展示了该技术在长上下文处理中的关键作用,最后提供了工程实现建议和选型指南。核心创新在于分块softm原创 2025-09-12 09:42:04 · 1701 阅读 · 0 评论 -
深度解析主流大模型推理部署框架(vLLM、SGLang、TensorRT-LLM、Ollama、XInference)+Qwen3全流程部署、优化、运维案例
本文深度解析了五大主流大语言模型推理部署框架的核心技术与应用场景。vLLM凭借PagedAttention和Continuous Batching技术实现95%显存利用率;SGLang通过RadixAttention技术在多轮对话场景吞吐量提升5倍;TensorRT-LLM利用NVIDIA深度优化提供极低延迟;Ollama为轻量级本地推理平台;XInference则专注于分布式部署。文章还提供了Qwen3-30B模型在各框架上的部署案例,为不同应用场景下的框架选择提供了技术参考。原创 2025-08-29 08:00:00 · 1539 阅读 · 0 评论
分享