- 博客(29)
- 收藏
- 关注
原创 大模型领域负载均衡技术
《大模型负载均衡技术综述》 本文系统分析了大模型训练与推理中的负载均衡问题及解决方案。研究发现,随着模型规模扩展至万亿参数,负载不均衡现象日益突出,尤其在流水线并行和MoE架构中表现显著,专家调用频率差异可达10倍以上。 技术体系方面,文章详细解析了EPLB等核心负载均衡技术。
2025-12-30 18:01:00
664
原创 大模型量化技术解读
大模型量化技术通过降低权重和激活值的精度(如INT8/INT4)来解决显存和计算瓶颈,包含三种状态:训练时的伪量化(FP32模拟低精度)、推理时的全量化(硬件加速)以及混合精度下的反量化。量化方案按对象(权重/激活值)和时机(PTQ快速校准/QAT高精度训练)划分,采用线性、非线性或浮点量化策略应对不同场景。核心通过缩放因子实现数值映射,针对矩阵乘法、归一化等算子采用差异化处理,典型流程包括量化-整数计算-反量化,在保持精度的同时显著提升计算效率。
2025-12-29 09:37:39
989
原创 投机推理模型简述
投机推理(Speculative Decoding)是在大模型推理阶段广泛采用的一类性能优化技术,核心目标是在不降低输出质量(或在可控范围内)的前提下,显著降低推理时延并提高吞吐量。该方法已成为当前主流大模型推理系统的关键工程手段。投机推理的基本思想是先由一个更小、更快的模型“猜测”未来若干个 token,再由目标大模型进行并行验证;验证通过的部分直接接受,未通过的部分回退并由大模型重新生成。本质上是用计算便宜的预测,来减少计算昂贵的逐 token 自回归推理。
2025-12-18 11:45:02
846
原创 FlashAttention 2 深度解读:原理、价值与实战
本文探讨了Transformer注意力层优化从FA1到FA2的技术演进。针对长序列下的二次内存和计算复杂度问题,FA1通过分块和在线softmax实现了线性内存占用,但效率仍远低于GEMM基准。FA2在此基础上进行了三项关键优化:数学上采用延迟缩放和logsumexp统计量存储,减少非矩阵乘法运算;并行策略上新增序列长度维度并行;Warp分区改用split-Q方案避免通信。这些改进使FA2在保持线性内存的同时,非矩阵乘法运算减少30-50%,GPU占用率提升至80%以上,显著接近GEMM的理论性能上限。
2025-12-04 17:29:41
863
原创 FlashAttention 1 深度解读:原理、价值、应用与实战
参数含义典型值n序列长度d特征维度64/128/256B分块大小(B_q=B_k=B_v=B)128/256(根据 SRAM 调整)num_smsGPU 的 SM 数量(如 A100 为 108)硬件查询获取warp_sizeGPU warp 大小(通常 32)32。
2025-12-01 21:09:03
1044
原创 Qwen3-Coder 分析报告
Qwen3-Coder是阿里通义千问团队推出的4800亿参数开源代码生成模型,采用MoE架构(激活参数350亿),支持256K原生上下文长度和1M扩展长度。其核心创新在于"Hard to Solve, Easy to Verify"强化学习框架,通过自动生成测试用例并以执行成功率作为奖励信号,显著提升代码可执行性。模型配套专用工具链,支持复杂开发任务,在SWE-Bench测试中达到开源SOTA水平,定位为"编程智能体"而非简单代码补全工具。
2025-11-29 17:28:26
694
原创 大模型三大架构详解:Decoder-Only、Encoder-Only 与 Encoder-Decoder
本文系统梳理了大语言模型的技术演进历程与架构差异。三大架构(Decoder-Only、Encoder-Only、Encoder-Decoder)各有特点:Decoder-Only擅长文本生成但理解有限,Encoder-Only精于语义理解但无法生成,Encoder-Decoder适合序列转换任务但效率较低。
2025-11-25 20:13:05
1021
原创 Qwen3 (LLM) 技术全景解读报告
Qwen是阿里云开发的AI模型家族,覆盖语言模型和多模态两大类型,包含通用、专项和多模态三大系列。Qwen2.5采用Transformer解码器架构,支持密集型和MoE两种模型,核心组件包括GQA、SwiGLU、RoPE和RMSNorm。Qwen3进一步优化架构,覆盖0.6B-235B参数规模,在数学推理、代码生成等领域达到顶尖水平。
2025-11-24 14:46:18
1012
原创 [图模式系列] 大模型图编译优化各阶段辨析
大模型图模式下的编译优化是分层递进的链路,从模型代码到硬件指令分为多个阶段:1)代码阶段的算子融合(减少算子调用开销);2)通用图优化中间件(跨硬件通用优化);3)专用设备适配层(如TorchAIR实现PyTorch到昇腾的转换);4)底层图编译引擎(如GE进行硬件专属优化)。各阶段优化目标、作用对象和粒度不同,形成互补而非冲突的关系。
2025-11-21 14:48:57
60
原创 大模型工程化流程和名词解释(速查表)
大模型工程化全流程术语解析 本文系统梳理了大模型训练与推理工程化全链路核心术语。通过整合训练6大流程与推理5大环节的专有名词,为从业者提供清晰的工程实践框架和技术学习指南。
2025-11-20 11:49:49
604
原创 [图模式系列] 计算图优化技术—昇腾GE优化技术
优化技术包括常量折叠、公共子表达式消除、剪枝、控制流优化、算子融合、内存规划、并行化和精度优化等通用方法,以及GE特有的Shape优化和动态分档等技术。这些优化使计算图更高效,支持动态输入同时保持静态优化性能,并减少内存占用。
2025-11-13 20:25:59
764
原创 vLLM 原理深度分析
vLLM是UC Berkeley团队推出的高性能大语言模型推理框架,其核心创新PagedAttention机制通过分页管理KV Cache解决了传统LLM服务中的显存碎片化问题。该框架整合动态批处理、分布式通信等优化技术,实现了2-4倍吞吐量提升,同时提供标准化API接口和生态兼容能力。
2025-11-06 21:21:28
1049
原创 [图模式系列] PyTorch Compile组件解析
PyTorch 2.x引入的torch.compile是一项核心优化技术,通过三阶段处理流程实现模型加速:1)TorchDynamo安全捕获计算图;2)AOT Autograd提前捕获反向传播;3)TorchInductor生成高效机器码。
2025-11-05 15:56:29
1065
原创 DeepSeek-OCR:视觉 - 文本压缩原理解析
DeepSeek-OCR提出“视觉-文本压缩”新范式,通过光学二维映射将长文本转化为高密度视觉令牌,解决大模型处理长文本时二次方计算复杂度的问题。其核心架构包含DeepEncoder(视觉令牌生成)和MoE Decoder(文本重建),实现9-20倍的令牌压缩比,处理286页年报仅需4分12秒,表格还原准确率达95.7%。关键技术包括窗口注意力降低计算量、卷积压缩减少令牌数量、动态位置编码适配多分辨率,以及混合专家机制优化推理效率。
2025-11-05 00:30:00
865
原创 [性能系列] cpu与npu张量拷贝的不同方案性能对比
本文摘要:针对CPU与NPU之间的数据传输优化,对比分析了不同内存类型(可换页/锁页)、传输模式(同步/异步)和批量处理的影响机制。实验验证表明:1)CPU→NPU方向,锁页内存+异步传输可实现真并行,避免CPU等待;2)NPU→CPU方向由于硬件限制难以实现真异步;3)批量处理对小张量传输优化显著(握手开销占比83%降至0.5%),大张量优化有限。综合建议:小张量优先采用批量+锁页内存+异步组合,中大型张量可适当简化优化策略。数据加载器场景使用锁页内存可获2倍以上性能提升。
2025-11-04 10:16:34
963
原创 DeepSeek-V3 技术解析
DeepSeek-V3 作为开源混合专家(MoE)模型的里程碑之作,在计算效率与模型性能之间实现了突破性平衡。核心创新围绕架构优化、训练效能与推理加速三大维度展开,通过多头潜在注意力(MLA)、无辅助损失负载均衡、多令牌预测(MTP)等关键技术,达成了对标 GPT-4o 95% 以上的性能水平,又将训练成本降低 3-5 倍。
2025-10-22 23:19:18
1088
原创 Attention注意力机制全景报告(家族图谱):从分类框架、基础原理、技术细节到性能评估
注意力机制已经扩展为一个庞大的体系,本文系统梳理了各类注意力机制,其出现是为了解决什么痛点以及原理,展开详述了各类注意力机制的技术细节。
2025-08-28 21:48:57
987
原创 强化学习-Q-Learning深度分析:理论基础、收敛性证明与实践应用全解析(二)
本报告围绕强化学习(Reinforcement Learning, RL)领域的核心算法 ——Q 学习(Q-Learning)展开,系统梳理其理论起源、数学框架、收敛性证明、实践应用及前沿拓展。
2025-08-27 23:32:49
717
原创 强化学习-Q-Learning深度分析:理论基础、收敛性证明与实践应用全解析(一)
本报告围绕强化学习(Reinforcement Learning, RL)领域的核心算法 ——Q 学习(Q-Learning)展开,系统梳理其理论起源、数学框架、收敛性证明、实践应用及前沿拓展。
2025-08-27 23:31:01
776
原创 Transformer 模型全景分析报告:从基础原理到深度实践(二)
本文介绍了Transformer模型的革命性创新及其在序列建模中的突破。Transformer摒弃了传统RNN和CNN结构,完全基于自注意力机制实现全局依赖建模,在并行计算、长距离依赖捕捉和训练稳定性上取得重大进展。报告采用阶梯式设计,既面向初学者讲解基础概念,又为深入研究者提供数学推导和实验细节。
2025-08-26 22:00:07
1130
原创 Transformer 模型全景分析报告:从基础原理到深度实践(一)
本文介绍了Transformer模型的革命性创新及其在序列建模中的突破。Transformer摒弃了传统RNN和CNN结构,完全基于自注意力机制实现全局依赖建模,在并行计算、长距离依赖捕捉和训练稳定性上取得重大进展。报告采用阶梯式设计,既面向初学者讲解基础概念,又为深入研究者提供数学推导和实验细节。
2025-08-26 21:57:44
731
原创 爆肝整理!万字 AI 全栈学习圣经:从基础到前沿,收藏即赚
本文为 AI 小白提供从入门到大师的全栈学习指南,涵盖完整知识体系与进阶路径。内容从数学、编程基础切入,逐步深入机器学习、深度学习核心算法,详解 LLM、AIGC、Agent、MCP、A2A 等前沿技术原理,同时包含工业部署、硬件底层、算子实现等工程化知识,并融入华为 AI 生态内容。
2025-08-17 21:47:31
837
原创 DeepSeek-R1 模型全方位技术解析:从架构到落地的完整指南
DeepSeek-R1 通过创新的 MoE 架构、GRPO 强化学习和高效蒸馏技术,为大模型推理能力提升提供了新范式。其 "无 SFT 直接 RL" 的探索证明了强化学习在推理任务上的巨大潜力,而蒸馏技术则让强推理能力走向普及。
2025-08-15 21:37:01
1484
原创 数据挖掘实操SOP
本框架全面覆盖数据挖掘理论与实践,为入门者提供系统性学习路径,也为从业者提供实战参考,强调结合业务场景实现技术落地与价值转化。
2025-08-13 10:13:02
1313
原创 向上管理 SOP(算法工程师全流程实操指南)
通过这套系统化的 SOP,AI 开发人员、算法工程师可摆脱 “埋头建模无人知” 的困境,通过精准沟通、风险共担、价值传递,逐步成为上级信赖的 “解决方案伙伴”,最终实现个人职业发展与团队目标的双赢。
2025-08-12 22:10:30
1461
原创 端到端特性设计标准作业流程(SOP)
本端到端特性设计 SOP 以规范可独立售卖特性的全流程设计为核心目标,通过覆盖需求洞察、优先级排序、立项确认、方案设计、技术评估、评审落地、发布交付及运营迭代九大阶段,构建了一套完整且可落地的标准化体系。
2025-08-10 18:19:52
1012
原创 算法设计标准作业流程(SOP)—— 业界E2E全链路实战指南
本SOP从命题评估到持续迭代,始终以“业务价值”为核心,通过全链路协同与场景适配,确保算法从实验室走向业务现场时“好用、管用、耐用”。无论金融、电商、医疗还是制造领域,均可复用这套流程框架,结合行业特性灵活调整细节,实现算法价值最大化。
2025-08-09 23:33:36
1961
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅