自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Pre-Norm与Post-Norm归一化策略

Transformer架构中Layer Normalization的位置对模型性能有关键影响。Pre-Norm(x+F(LN(x)))通过归一化前置确保梯度稳定传输,但牺牲了网络深度;Post-Norm(LN(x+F(x)))保留网络深度但训练不稳定需配合warmup策略。Pre-Norm适合大规模模型构建,Post-Norm在适度层数下可能表现更优。二者的选择体现了训练稳定性与模型表达能力的权衡。

2025-09-26 20:58:01 409

原创 分词问题如何影响大语言模型的表现

大语言模型在算术和简单推理任务中表现不佳,主要源于分词问题。分词将文本拆解为词或子词,导致数字和运算符被分割为独立token,影响模型对数学运算的整体理解。同样,在字符级任务如字符串反转中,分词阻碍了模型直接处理原始字符。此外,分词还可能导致数字与文本混合处理、语义理解偏差等问题。这些限制表明,尽管大语言模型在文本生成方面表现优异,但分词机制制约了其在精确计算和字符操作任务中的能力。

2025-09-22 11:08:22 517

原创 推测解码:大语言模型推理加速的创新突破

推测解码是一种新兴的大语言模型推理加速技术,通过小模型推测候选token、大模型并行验证的协同机制,突破传统自回归生成的串行瓶颈。其核心是将小模型快速生成的多个候选token交由大模型一次性并行验证,大幅提升计算效率和内存访问性能。关键实现包括推测生成候选序列、概率接受策略和并行验证流程,通过优化算术强度和减少重复内存访问,可实现约k倍的加速比(k为推测token数)。该技术在保持生成质量的同时显著降低推理延迟,尤其适合计算资源受限的场景。

2025-09-18 15:29:02 431

原创 深度解析GPU架构:从显存到缓存的完整层次结构

本文以NVIDIA RTX 4090为例,深入解析GPU架构,纠正常见误解。首先指出GPU是独立计算设备,通过PCIe总线与CPU通信。RTX 4090实际由12个2GB GDDR6X显存芯片组成,而非单一24GB芯片;其72MB L2缓存被分为72个1MB分片,采用分布式架构优化访问。每个SM包含多种计算单元(FP32/INT32/Tensor/RT核心)和存储层次,远超简单的"CUDA核心+L1缓存"认知。这些设计通过多芯片并行、分布式缓存和专用计算单元,有效解决了带宽瓶颈和计算单元

2025-09-18 14:55:59 701

原创 LayerNorm vs BatchNorm:深度学习中的归一化技术详解

BatchNorm和LayerNorm是深度学习中两种核心归一化方法。BatchNorm在batch维度上归一化,适用于计算机视觉任务和大batch场景,但依赖batch大小且训练推理不一致。LayerNorm在特征维度上归一化,适合自然语言处理、小batch和变长序列,保持特征关系且训练推理一致。关键差异在于:BatchNorm保留样本间关系但破坏特征间关系,LayerNorm则相反。实际选择需考虑任务类型(CV优先BatchNorm,NLP优先LayerNorm)、数据特性和训练条件(小batch建议L

2025-09-18 13:25:44 1143

原创 深度解析Softmax计算瓶颈:为什么它成为LLM推理的性能杀手

本文深入分析了大语言模型中Softmax操作的性能瓶颈。Softmax虽然公式简单,却面临三大核心挑战:1)需要多次完整遍历输入数据,导致内存访问开销大;2)按行计算的特性与现代硬件矩阵运算模式不匹配;3)算术强度低,属于访存密集型操作。研究表明,Softmax中的reduce操作是主要性能瓶颈,它破坏了计算的并行性,导致线程同步开销大、利用率急剧下降。此外,Softmax难以与其他算子融合,因其行内数据依赖性要求全局同步。相比之下,逐元素操作(如ReLU)能充分利用硬件并行性。文章通过CUDA代码示例对比

2025-09-18 13:23:14 796

原创 基于KV缓存机制的LLM大模型计算流程详解

本文深入解析了KV缓存机制在LLM大模型中的应用及其优化策略。KV缓存通过缓存自注意力机制中的Key和Value张量,避免了重复计算,将时间复杂度从O(n²)降至O(n),显著提升模型推理速度2-10倍。文章详细介绍了KV缓存的工作流程、内存管理策略(动态分配、滑动窗口等)和性能优势,同时探讨了内存消耗等挑战以及PagedAttention、GQA等高级优化技术。KV缓存作为大模型推理的核心技术,未来将向自适应缓存、硬件协同等方向发展,对提升大语言模型效率具有重要意义。

2025-09-18 09:42:44 724

原创 函数栈详解

这篇文章会详细的讨论:在程序中调用函数时,具体的栈中数据会如何变化。文章基于64位,所以ebp->rbp、esp->rsp。

2023-12-10 10:11:57 103 1

原创 IPV4数据报

简单的介绍一下IPV4数据报一些相关内容

2023-12-09 15:11:22 358

原创 Lambda函数

Lambda 函数

2023-09-20 23:09:51 104 1

原创 priority_queue 优先队列详解

priority_queue 容器适配器详解

2023-09-19 21:56:26 94

原创 c++deque详解

c++ STL deque容器

2023-09-17 15:54:32 683 1

原创 c++ string类详细解读

c++ string类详细解读

2023-09-17 12:09:31 129 1

原创 c++ stack详细解读

C++ STL库容器适配器stack详解

2023-09-16 18:10:49 144 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除