Transformer
文章平均质量分 96
丁学文武
打球、跑步、徒步、露营️、骑行、滑雪️、游泳、冲浪
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型必知基础知识:11、大模型知识蒸馏原理和过程详解
大模型知识蒸馏是一种将大型教师模型的知识迁移到小型学生模型的技术。本文详细介绍了知识蒸馏的两种主要方式:白盒蒸馏和黑盒蒸馏。白盒蒸馏允许学生访问教师模型的内部参数,通过KL散度优化来对齐输出分布,特别介绍了MiniLLM方法采用反向KLD和策略梯度法优化生成质量。黑盒蒸馏则仅依赖教师模型的输入输出,更具实用性。文章还分析了正向与反向KLD的差异,以及它们在大语言模型生成任务中的应用场景。这些技术能够有效压缩模型规模,同时保持较高性能。原创 2025-10-21 07:00:00 · 884 阅读 · 0 评论 -
大模型必知基础知识:9、MOE多专家大模型底层原理详解
混合专家模型(MoE)是解决大模型算力瓶颈的关键技术。其核心思想是将传统稠密模型拆分为多个“专家”网络,通过智能门控系统为每个输入动态选择最相关的少数专家进行处理。MoE主要分为三大类型:稀疏MoE每次只激活少量专家,极大提升推理效率,代表模型Mixtral-8x7B;稠密MoE激活所有专家但权重不同,适合微调场景;软MoE采用参数融合策略,平衡效率与稳定性。这种架构让模型总参数量可达万亿级别,而实际计算成本仅相当于百亿参数模型,成功突破了“缩放定律”的算力限制,成为当前超大语言模型的主流设计方案。原创 2025-10-21 07:00:00 · 847 阅读 · 0 评论 -
大模型必知基础知识:6、Transformer架构-提示词工程调优
本文系统介绍了大语言模型的核心能力与优化方法,重点探讨了Transformer架构中的提示词工程调优技术。文章首先解释了大模型的本质——构建高度压缩的世界知识库,并详细分析了其涌现能力的五大表现(对话、上下文学习、指令遵循、逻辑推理和知识运用)。随后提出了激发模型潜能的三种核心方法:提示工程、微调和智能代理,并重点剖析了提示工程的三大技术(模板设计、示例设计和流程设计)。文章还介绍了CO-STAR结构化提示框架,并通过实战案例展示了不同学习范式的应用。最后,文章深入讲解了温度参数、Top-P采样等关键调优技原创 2025-10-18 07:30:00 · 1103 阅读 · 0 评论 -
大模型必知基础知识:5、Transformer架构-前馈神经网络(FFN)原理详解
前馈神经网络(FFN)是Transformer架构中的核心组件之一。本文详细介绍了FFN的基本原理及其在Transformer中的应用。FFN通过"先展开再压缩"的结构设计(通常包含两个线性变换层和ReLU激活函数),实现了对输入数据的非线性变换和复杂特征提取。在Transformer中,FFN位置独立地作用于每个token的表示,并与自注意力机制协同工作,为模型提供更强的表达能力和泛化能力。文章还探讨了FFN的变体和发展趋势,如门控线性单元(SwiGLU)和混合专家模型(MoE)等创新原创 2025-10-17 07:15:00 · 1390 阅读 · 0 评论 -
大模型必知基础知识:4、Transformer架构-多头注意力机制原理详解
文章摘要 Transformer模型中的多头注意力机制是其核心创新,它模拟了人类选择性注意的能力。该机制通过多组独立权重矩阵(Q、K、V),使模型能从不同角度(如语法、语义、情感等)分析文本关系。每个"注意力头"专注于特定维度的特征,最后将多个视角的见解综合起来。这种设计大幅提升了模型捕捉复杂语义关系的能力,成为大语言模型性能突破的关键技术。实现上采用维度切分策略,将高维向量空间划分为多个子空间并行计算,既保持强大表达能力又确保计算效率。原创 2025-10-17 07:00:00 · 1193 阅读 · 0 评论 -
大模型必知基础知识:3、Transformer架构-词嵌入原理详解
本文详细介绍了Transformer架构的核心原理,重点解析了词嵌入技术及其实现过程。Transformer作为现代大语言模型的基础架构,其创新性的自注意力机制能够并行处理文本并捕捉长距离依赖关系。文章从分词、词嵌入到位置编码逐步拆解输入层的处理流程,阐述了如何将文本转换为计算机可处理的数字向量,同时保留语义和位置信息。其中,词嵌入技术通过将词语映射到高维向量空间,不仅实现了语义的有效表达,还能进行"语义代数"运算。位置编码则解决了自注意力机制的位置无关性问题,使模型能够理解词序关系。这原创 2025-10-16 07:00:00 · 761 阅读 · 0 评论 -
大模型必知基础知识:2、Transformer架构-大模型是怎么学习到知识的?
大模型通过三阶段训练学习知识:1)预训练阶段,模型通过海量文本数据掌握语言基础;2)有监督微调阶段,使模型适应具体任务;3)强化学习阶段,通过人类反馈优化输出质量。核心技术包括Transformer架构的自注意力机制和多层前馈网络,通过反向传播调整数十亿参数。当前模型性能的关键瓶颈在于数据质量而非算法,高质量训练数据已成为核心竞争力。整个学习过程本质是将文本转化为高维向量表示,构建复杂的语义空间关系。原创 2025-10-15 19:06:10 · 1325 阅读 · 0 评论 -
大模型必知基础知识:1、Transformer架构-QKV自注意力机制
本文系统介绍了大模型中的自注意力机制(QKV)及其核心原理。自注意力机制通过查询向量(Q)、键向量(K)和值矩阵(V)的交互计算序列中各Token的相关性,其中Q代表当前查询特征,K提供可检索特征,V保存语义信息。计算过程包括:1)Q与K点积求注意力分数;2)Softmax归一化;3)加权聚合V矩阵输出。文章还阐述了多头注意力机制的优势,以及模型预测下一个Token的完整流程,包括编码、解码和迭代生成步骤。最后讲解了反向传播原理,通过梯度计算和参数更新优化模型。这些知识构成了理解现代大语言模型的基础框架。原创 2025-10-15 07:30:00 · 1248 阅读 · 0 评论 -
LLM协作告别文本形式:直接“脑对脑”,Cache-to-Cache实现语义瞬时传输
摘要:论文《Cache-to-Cache: Direct Semantic Communication Between Large Language Models》提出了一种突破性的LLM协作范式——C2C(Cache-to-Cache),通过直接交换模型内部的KV缓存(而非传统文本)实现高效语义通信。该方法解决了多LLM系统中文本传输导致的信息瓶颈、语义损失和计算开销三大痛点,利用神经网络模块(Fuser)实现跨模型缓存的语义对齐与动态融合。实验表明,C2C能保留90%以上的上下文信息,相比文本通信提升1原创 2025-10-15 06:45:00 · 1742 阅读 · 0 评论 -
大模型原理与实践:第七章-大模型实战_第1部分-评测+RAG检索增强生成
大模型实战指南:评测与RAG技术 本文是《第七章 大模型实战》的第1部分,聚焦两大核心内容: 大模型评测体系:详解MMLU、GSM8K等主流评测数据集,介绍Open LLM Leaderboard等权威榜单,提供数学评测代码实现示例,帮助开发者客观评估模型性能。 RAG检索增强生成:阐述RAG技术原理,通过构建Tiny-RAG框架的实战案例,展示如何结合检索系统增强大模型的生成能力。 作为大模型应用系列的第7章,本文承接前文的理论基础,为开发者提供从模型评估到增强落地的完整实践指导。后续章节将深入探讨监督微原创 2025-10-10 07:30:00 · 1112 阅读 · 0 评论 -
大模型原理与实践:第六章-大模型训练流程实践_第3部分-高效微调(LoRA)
本文介绍了大模型高效微调方法,重点分析了LoRA技术原理。针对全量微调的资源消耗大、训练时间长、过拟合风险高等问题,对比了Adapter Tuning、Prefix Tuning和LoRA三种高效微调方案。LoRA通过低秩分解表示权重更新,仅需训练少量参数,具有无推理延迟、可与其他方法组合等优势。文章详细阐述了LoRA的低秩参数化原理、前向传播公式和初始化策略,指出其仅需更新(d+k)×r个参数,相比全量微调可达到1/256的压缩比。最后强调LoRA是目前平衡性最佳的高效微调方案。原创 2025-10-09 07:15:00 · 1057 阅读 · 0 评论 -
大模型原理与实践:第六章-大模型训练流程实践_第2部分-模型有监督微调(Pretrain、SFT)
大模型训练实践摘要 本章介绍大模型训练流程中的有监督微调(SFT)环节,重点对比了预训练(Pre-train)与SFT的核心差异: 目标差异:预训练学习语言统计规律,SFT学习指令遵循能力 数据处理:预训练使用海量无监督文本,SFT使用指令-响应对 Loss计算:预训练计算全文Loss,SFT仅计算响应部分Loss 实现方法:给出了使用Qwen-2.5 Chat Template的数据处理代码示例 实践指导:包含特殊Token定义、数据预处理函数等具体实现细节 完整代码和更多细节可参考配套的finetune原创 2025-10-09 07:45:00 · 756 阅读 · 0 评论 -
大模型原理与实践:第六章-大模型训练流程实践_第1部分-模型预训练(Trainer、DeepSeed)
本文摘要:第六章重点介绍大模型训练流程实践,基于Transformers框架实现高效训练。首先分析手写LLM训练的局限性,指出主流框架的优势在于模型加载便捷、支持分布式训练、生态完善等。详细讲解初始化LLM的步骤,包括下载模型配置文件和加载参数配置,以Qwen-2.5-1.5B模型为例说明具体操作方法。该章为后续预训练和微调实践奠定基础,帮助读者掌握业界主流LLM技术方案。原创 2025-10-08 07:30:00 · 754 阅读 · 0 评论 -
大模型原理与实践:第五章-自己搭建大模型_第3部分-预训练一个小型LLM
本文介绍了如何预训练一个小型LLM(约2亿参数)的完整流程,包括数据准备、预训练和微调。主要内容: 数据下载与处理:使用出门问问序列猴子数据集(10B tokens)作为预训练数据,BelleGroup中文对话数据集(350万条)作为SFT数据。提供了数据下载脚本和预处理代码,包括文本切分和格式转换。 构建预训练数据集:详细介绍了PretrainDataset类的实现,用于自回归语言建模任务,包含数据加载、tokenize和填充等处理。 完整训练流程:从数据准备到预训练、监督微调(SFT)和模型推理的端到端原创 2025-10-08 07:30:00 · 1146 阅读 · 0 评论 -
大模型原理与实践:第五章-自己搭建大模型_第2部分-自己训练 Tokenizer
本文介绍了训练Tokenizer的方法,重点讲解了BPE、WordPiece和Unigram等子词分词算法。BPE通过合并高频字符对构建词表,WordPiece基于语言模型似然选择合并,Unigram则采用概率模型优化词表。文章详细演示了使用Hugging Face库训练BPE Tokenizer的完整流程,包括数据准备、配置设置和模型训练。不同Tokenizer各有优缺点:基于词的方法简单但词表庞大,基于字符的词表小但序列长,子词方法在两者间取得平衡。选择合适的分词方法对模型性能至关重要。原创 2025-10-07 08:15:00 · 2415 阅读 · 0 评论 -
大模型原理与实践:第五章-自己搭建大模型_第1部分-动手实现一个LLaMA2大模型
本文介绍了如何动手实现LLaMA2大模型,从定义超参数到构建模型核心组件。文章详细讲解了RMSNorm归一化层的数学原理和代码实现,相比传统LayerNorm更高效。同时概述了LLaMA2的整体架构,包括decoder-only的Transformer设计、GQA注意力机制等关键优化技术。通过手把手指导实现LLaMA2的各个模块,帮助读者深入理解大模型的构建细节。原创 2025-10-07 08:00:00 · 799 阅读 · 0 评论 -
大模型原理与实践:第四章-大语言模型_第2部分-LLM预训练、监督微调、强化学习
本文系统介绍了大语言模型(LLM)的三阶段训练过程:预训练(Pretrain)、监督微调(SFT)和人类反馈强化学习(RLHF)。重点分析了预训练阶段的因果语言建模任务、模型规模对比(从BERT到GPT-5的演变)、Scaling Law理论以及分布式训练技术。通过参数计算和资源需求分析,揭示了训练现代大模型所需的海量计算资源,包括数万张GPU和数月的训练时间。文章为理解大语言模型的核心训练原理提供了全面而深入的技术视角。原创 2025-10-06 07:45:00 · 928 阅读 · 0 评论 -
大模型原理与实践:第四章-大语言模型_第1部分-发展历程、上下文、指令遵循、多模态
本文系统介绍了大语言模型(LLM)的核心概念、发展历程及其独特能力。LLM通过超大规模参数(百亿至千亿级)和大量数据训练,展现出传统模型不具备的涌现能力,包括上下文学习、指令遵循和逐步推理等。文章梳理了从GPT-3到ChatGPT等代表性模型的演进历程,并分析了LLM在多语言支持、长文本处理、多模态扩展等方面的技术特征,同时也指出了幻觉问题等挑战。原创 2025-10-06 08:00:00 · 1228 阅读 · 0 评论 -
大模型原理与实践:第三章-预训练语言模型详解_第3部分-Decoder-Only(GPT、LLama、GLM)
本文详细介绍了预训练语言模型中的Decoder-Only架构,重点分析了GPT、LLaMA和GLM三大模型的技术特点。文章首先阐述了Decoder-Only架构作为当前主流LLM基础的重要性,随后深入解析了GPT模型的核心组件与实现细节,包括其Decoder Block结构、预训练的因果语言建模(CLM)任务等。通过代码示例展示了GPT模型的具体实现方式,包括词嵌入、位置编码、注意力机制和模块化设计。全文系统梳理了Decoder-Only模型的发展脉络,为理解当今大语言模型的技术基础提供了重要参考。原创 2025-10-04 08:00:00 · 916 阅读 · 0 评论 -
大模型原理与实践:第三章-预训练语言模型详解_第2部分-Encoder-Decoder-T5
T5模型是Google提出的Encoder-Decoder架构预训练语言模型,采用完整Transformer结构,将各类NLP任务统一为文本到文本转换。其关键创新包括:1)使用RMSNorm替代LayerNorm,计算更高效;2)引入相对位置编码;3)采用Encoder-Decoder架构,支持更灵活的生成任务。模型通过统一框架处理多种任务,实现NLP任务的大一统,为后续研究提供了重要参考。原创 2025-10-04 08:00:00 · 1841 阅读 · 0 评论 -
大模型原理与实践:第三章-预训练语言模型详解_第1部分-Encoder-only(BERT、RoBERTa、ALBERT)
预训练语言模型摘要 本文系统介绍了基于Transformer的预训练语言模型发展历程和技术要点。主要内容包括: BERT模型:首个基于Transformer Encoder的双向预训练模型,采用MLM+NSP任务,开创了"预训练+微调"范式 RoBERTa改进:通过去除NSP任务、扩大训练数据和词表规模,显著提升模型性能 ALBERT优化:采用参数分解、跨层共享和SOP任务,有效降低模型参数量 模型架构对比:详细分析了Encoder-only、Encoder-Decoder和Decode原创 2025-10-03 08:01:52 · 1343 阅读 · 0 评论 -
大模型原理与实践:第二章-Transformer架构_第2部分Encoder-Decoder架构
本文介绍了Transformer架构中的Encoder-Decoder框架及其核心组件。首先概述了Seq2Seq任务(如机器翻译、文本摘要)的基本概念与编码-解码框架。接着详细讲解了前馈神经网络(FFN)的结构与实现,包括两个线性层和ReLU激活函数。在归一化部分,重点对比了Batch Norm与Layer Norm的差异,分析了Layer Norm更适合Transformer的原因,并给出了具体计算公式和PyTorch实现。最后简要提及了残差连接的作用及在Transformer中的应用,为后续完整的Enc原创 2025-10-02 06:55:40 · 1109 阅读 · 0 评论 -
大模型原理与实践:第二章 Transformer架构_第1部分-注意力机制(Self-Attention、Masked Self-Attention、Multi-Head Attention)
本文介绍了Transformer架构中的核心组件——注意力机制。首先分析了传统RNN的局限性,包括无法并行计算和难以捕捉长距离依赖关系。然后详细讲解了注意力机制的原理,通过Query、Key、Value三个核心变量的交互计算,实现了对输入序列不同部分的动态关注。文章还提供了PyTorch实现代码,并介绍了自注意力、掩码注意力和多头注意力等关键变体。这些创新使Transformer成为当前大语言模型的基础架构,解决了传统RNN的固有缺陷。原创 2025-10-02 06:54:14 · 1663 阅读 · 3 评论 -
大模型原理与实践:第二章-Transformer架构_第3部分-完整Transformer模型
本文是Transformer架构完整指南的第二章,重点讲解Transformer模型的实现细节。文章首先介绍了Embedding层的作用与实现方式,将token ID转换为稠密向量表示。随后深入解析了位置编码的必要性,详细推导了正弦位置编码的数学原理,并提供了可视化代码展示位置编码模式。 在完整模型实现部分,文章提供了训练示例和模型结构图,帮助读者理解Transformer的端到端工作流程。附录部分包含丰富资源:关键公式总结、变体对比、性能优化技巧、调试方法、项目建议等实用内容,为读者从理论到实践提供全面指原创 2025-10-03 08:00:00 · 445 阅读 · 0 评论 -
大模型原理与实践:第一章-NLP基础概念完整指南_第3部分-文本表示(词向量、语言模型、ELMo)
本文介绍了NLP基础概念和发展历程,重点讲解了文本表示技术的关键演进。从早期的向量空间模型(VSM)到现代的词向量方法,文章详细分析了文本表示需要解决的核心问题:语义表达、上下文建模、计算效率和泛化能力。内容涵盖VSM的核心组件(特征提取、权重计算、向量构建)和经典权重计算方法(TF、IDF、TF-IDF、BM25),并提供了向量空间模型实现的伪代码。文章还简要提到了改进的潜在语义分析(LSA)方法,为理解NLP基础技术提供了系统性的导引。原创 2025-09-30 08:00:00 · 1029 阅读 · 0 评论 -
多模态大模型的进化:从视觉->语言和语音->语言的统一架构与未来趋势
多模态AI模型架构演进:从视觉语言到语音语言模型 随着Transformer技术的突破,多模态AI模型在视觉语言和语音语言领域取得显著进展。视觉语言模型(VLM)通过四种主要训练方法实现图像与文本的交互:对比学习(如CLIP)、掩码预测(如FLAVA)、生成式学习(如PaLI/Kosmos-1)和映射学习(如BLIP-2)。语音语言模型(SLM)则采用端到端架构处理语音与文本关系,包括S2T、ST2T和ST2ST三种交互模式。关键创新在于语音表示学习方法(CNN/Transformer/Codec)和跨模态原创 2025-09-26 08:00:00 · 1111 阅读 · 0 评论 -
深度解析FlashAttention与PagedAttention:大模型推理优化的双重突破
文章摘要: 本文深入分析了Transformer中注意力机制的性能瓶颈,并系统介绍了FlashAttention与PagedAttention两项突破性优化技术。FlashAttention通过分块计算、在线Softmax算法和重计算机制,将注意力计算的内存访问优化至O(n),在A100上实现7.6倍加速;其后续版本FlashAttention-2/3进一步优化计算流程,在H100上突破PetaFLOP级计算性能。PagedAttention则借鉴操作系统分页思想,创新性地管理KV Cache,解决显存碎片原创 2025-09-17 07:45:00 · 1925 阅读 · 0 评论 -
大模型数据处理实战:文本处理、高效数据管道、性能优化技巧、多机分布式、质量评估,全方位解析
大模型数据处理实战:从原始文本到高效数据管道 本文系统介绍了大模型开发中的数据预处理全流程,涵盖环境配置、工具选型到核心分词技术。重点讲解了处理100GB+文本数据的高效方法,包括流式处理原理和分布式计算架构。详细解析了BPE、WordPiece和SentencePiece三种主流分词算法的实现原理与技术特点,并提供了完整的代码示例。文章还分享了数据清洗的关键步骤和优化策略,如HTML标签处理、文本长度过滤和正则优化,帮助开发者构建工业级数据流水线,处理TB级文本数据。原创 2025-09-16 14:07:09 · 1256 阅读 · 0 评论 -
PyTorch 与 TensorFlow 实战指南:从开发范式到企业级部署
本文介绍了PyTorch和TensorFlow的工业级开发实践,重点涵盖标准化训练流程构建和高级优化技巧。文章首先展示了两种框架的典型开发范式,包括数据管道、模型定义、训练循环和模型保存的完整代码示例。随后深入探讨了混合精度训练、分布式并行、性能剖析和数据管线优化等关键工业级技术,提供了混合精度实现、DDP分布式训练和性能分析的代码片段。最后简要提及了梯度累积等显存控制技术,帮助开发者在资源受限情况下训练更大模型。全文通过实战代码和工程建议,为深度学习项目的开发和优化提供了实用指导。原创 2025-09-16 07:45:00 · 1104 阅读 · 0 评论 -
FlashAttention(V3)深度解析:从原理到工程实现-Hopper架构下的注意力机制优化革命
FlashAttention-3(FA3)是针对Hopper架构(H100/H200)优化的注意力计算算法,通过三大核心技术实现高达75%的GPU利用率:1)Warp专用化与生产者-消费者并行,利用TMA异步数据搬运;2)块级矩阵乘法与Softmax交错执行,减少缓存占用;3)基于块的量化与非一致处理,支持FP8/FP16混合精度。FA3在数值稳定性、计算效率和内存访问方面均有显著提升,已集成到vLLM、SGLang等主流推理框架中,适用于Qwen、Llama等大模型的高效部署。原创 2025-09-14 09:39:36 · 1424 阅读 · 0 评论 -
FlashAttention(V2)深度解析:从原理到工程实现
Flash Attention V2通过优化循环顺序和并行策略显著提升了注意力计算的效率。V2将外循环改为遍历Q块,内循环遍历KV块,改善了数据局部性并减少了中间状态的反复存取。在反向传播中则采用KV外循环以优化梯度计算。此外,V2在序列维度上引入并行分割,提高了SM利用率(如A100 GPU可达3228=512块,利用率提升30倍)。这些改进使V2在保持数学等价性的同时,实现了比V1更优的性能表现,特别适合处理长序列场景。原创 2025-09-14 07:45:00 · 867 阅读 · 0 评论 -
Transformer位置编码深度解析:从原理到前沿各大模型应用
本文深入解析了Transformer中的位置编码机制,从原始正弦编码到最新旋转编码的演进历程。首先阐述了位置编码的必要性:由于Transformer的并行自注意力机制无法感知序列顺序,必须通过位置编码注入位置信息。重点分析了原始Transformer正弦编码的多尺度设计原理,包括频率变化、交替使用正弦余弦函数以及相对位置表达能力。通过代码实现展示了位置编码的生成方式,并可视化其变化规律。最后介绍了位置编码在Transformer中的实际应用方式,包括与词嵌入的相加操作和缩放处理。位置编码是Transform原创 2025-09-11 11:30:00 · 1295 阅读 · 0 评论 -
从零开始实现GPT风格的Transformer:完整代码实战指南(多头注意力机制、位置编码、前馈网络、残差连接、层归一化)
本文从零开始实现GPT风格的Transformer模型,详细讲解了核心组件的代码实现,包括: 环境准备与超参数设置 数据集的加载与处理 文本分词(tokenization)过程 词嵌入(word embedding)实现 位置编码(positional encoding)方法 多头注意力机制的核心实现 文中使用PyTorch框架,从基础的数据准备开始,逐步构建模型各组件,特别对多头注意力机制进行了重点讲解,包括Q、K、V矩阵的生成和维度变换。每个步骤都配有详细的代码实现和形状变化说明,适合希望深入理解Tra原创 2025-09-01 08:00:00 · 1215 阅读 · 0 评论
分享