- 博客(181)
- 收藏
- 关注
原创 RAG、In-Context Learning、微调:如何选择最适合你的AI技术方案?
AI技术选型指南:RAG、In-Context Learning与Fine-tuning的对比与应用 本文深入分析了三种主流AI技术方案的差异与适用场景: RAG(检索增强生成):适用于模型能力足够但缺乏背景知识的场景,适合处理动态更新的外部数据,但需注意检索质量和知识库更新问题 In-Context Learning:通过Prompt示例激发模型能力,适合快速验证和小规模应用,但Prompt过长会导致成本飙升 Fine-tuning:通过训练将能力嵌入模型内部,长期使用成本最低但前期投入大 决策时应首先区
2025-11-24 15:23:21
634
原创 部署大模型需要多少GPU显存?一文教你精准计算
本文以Llama 70B模型为例,详细讲解了计算大模型推理所需GPU显存的方法。主要包含三部分:模型权重显存(140GB)、KV Cache显存(10并发32K上下文约800GB)和其他开销(约94GB),总需求约1TB。文章指出KV Cache是显存占用的主要部分,并提供了单用户和短上下文场景的优化建议,可将显存需求分别降至250GB和400GB。最后强调实际应用中可通过多种优化技术进一步降低显存需求。
2025-11-24 14:52:09
105
原创 Transformer多头自注意力机制深度解析:从原理到工程实践
本文全面解析了Transformer中的多头自注意力机制。从理论基础出发,阐述了其分头处理、线性变换等关键技术要点,并通过金融客服系统案例展示了8头注意力在意图识别中的实际应用效果(准确率提升16%)。文章重点分析了多头设计的核心价值:特征分工、并行计算优势及可解释性,同时提供了头数选择、长文本处理等工业实践建议。这种多专家协同的机制设计,为解决复杂语义理解问题提供了优雅而高效的方案,在面试和工程实践中都具有重要参考价值。
2025-11-23 23:42:48
721
原创 最新版LangChain 1.0快速入门介绍
LangChain 1.0重大更新概述 LangChain 1.0版本进行了全面升级,致力于简化开发流程并提升生产环境的稳定性。主要更新包括: 架构革新:以智能体(Agent)为核心,取代旧版的链式结构,通过统一的create_agent()API简化开发 底层优化:将LangGraph作为底层运行时,继承其状态管理、持久化等生产级能力 关键新特性: 引入中间件机制,支持全流程干预 标准化消息格式(HumanMessage等)提升兼容性 开发体验提升:整合LangGraph Studio等工具链,提供可视化
2025-11-14 19:51:47
929
原创 Prompt Engineering 和微调,到底该选谁?
摘要:本文探讨了大模型应用中的关键决策问题——何时选择Prompt工程,何时需要微调。研究表明,80%的场景通过Prompt优化+RAG+CoT即可满足需求。微调适用于四种特殊情况:高度专业化领域、Prompt优化已达瓶颈、拥有高质量标注数据或需要低延迟响应。文章提供了五步决策流程:1)判断任务通用性;2)梯度优化Prompt;3)叠加RAG/CoT工具;4)对比不同基座模型;5)评估是否满足微调条件。通过这套方法,可显著降低算力和时间成本,实现模型应用的最优性价比。
2025-11-12 21:55:19
733
原创 详解监督微调(SFT):大模型指令遵循能力的核心构建方案
摘要: 监督微调(SFT)是实现大模型指令遵循能力的核心方法,通过高质量数据微调预训练模型,使其适配特定任务。其关键点在于: 数据质量优先:需注重prompt多样性和合成数据质量,而非盲目追求数据量级,采用IFD/MoDS过滤和聚类优化确保多样性。 训练策略差异:与预训练不同,SFT需屏蔽prompt损失、控制生成终止,并针对多轮对话优化loss计算,避免使用packing策略。 评估闭环:基于3H原则(有用性、诚实性、无害性)构建双轨评估体系(机评+人评),定位短板并反向优化数据。 SFT以轻量化训练和精
2025-11-11 17:19:56
440
原创 一文掌握 MCP 上下文协议:从理论到实践
MCP协议:标准化LLM与外部资源交互 MCP(Model Context Protocol)是由Anthropic推出的开放标准(2024年11月),旨在规范大型语言模型(LLM)与外部数据/工具的交互方式。采用CS架构,包含Host、Client和Server组件,支持JSON-RPC 2.0消息格式,提供stdio和SSE两种传输方式。核心功能包括: Roots机制:通过URI界定服务器操作边界,支持文件路径和HTTP URL; 采样功能:客户端审核LLM请求与结果,实现安全可控的代理交互; 优先级设
2025-11-11 17:08:02
737
原创 大模型如何“读懂”人类文字?从词嵌入到千亿参数的语义魔法
摘要:大模型如何理解人类文字 本文系统阐述了大模型理解人类文字的演进历程。早期采用独热编码存在维度灾难和语义缺失问题,随后词嵌入技术(如Word2Vec)将单词映射到低维向量空间,通过上下文预测学习语义关系。GloVe引入全局共现统计,FastText创新性采用子词单元,增强了生僻词处理能力。随着BERT等模型出现,实现了基于上下文的动态语义表示,通过掩码语言模型和注意力机制,大模型不仅能处理一词多义,还能把握篇章级语义关联。这一从静态词向量到动态语义理解的技术演进,使AI对自然语言的理解愈发接近人类水平。
2025-11-10 20:54:40
814
原创 Attention注意力机制:原理、实现与优化全解析
Attention机制:核心原理与优化方向 Attention机制通过动态权重分配,突破了传统RNN/CNN在序列建模中的局限性。其核心是Scaled Dot-Product Attention,利用Query、Key、Value三者的交互计算相关性权重,并引入缩放因子解决梯度消失问题。在Transformer中,Self-Attention处理序列内部依赖,Cross-Attention建立跨序列关联,而Multi-Head Attention通过并行多头计算提升信息捕捉能力。针对原生Attention的
2025-11-05 15:28:57
723
原创 RAG系统评估与应用框架:从指标到实战落地
RAG系统评估框架:核心指标与实战指南 检索增强生成(RAG)系统的评估聚焦检索器和生成器两大组件,需基于输入问题、生成答案、上下文与参考答案四要素展开。评估指标分为检索质量(上下文相关性、精度、召回率)和响应质量(忠实度、答案相关性)两个维度,其中忠实度确保答案基于上下文,答案相关性则检查回答针对性。评估方法含人工评估(精准但低效)和自动化评估(高效且可扩展)两种方式,推荐工具包括Ragas(专注RAG全流程评估)和Trulens(支持LLM应用迭代)。该框架为优化RAG系统提供了从指标设计到工具落地的完
2025-11-05 14:34:59
925
原创 从“奶奶漏洞”到知识库破解:提示词攻击有多可怕?
提示词攻击是攻击者通过精心设计的输入指令,诱导AI模型偏离预设规则,执行非法、有害或超出权限的操作。其核心逻辑是利用AI对自然语言的理解漏洞,要么让AI忽略原始安全限制,要么误导其输出敏感信息、恶意内容。这种攻击的门槛极低,无需复杂技术,仅凭话术设计就能实现;但危害极大,小到泄露个人隐私,大到企业核心知识库被盗、传播违法教程,甚至影响信息生态的真实性。提示词攻击的本质,是利用AI的“语言理解能力”对抗“安全限制规则”。
2025-11-04 14:00:20
545
原创 GraphRAG vs 传统RAG:从向量检索到图谱推理,附代码详解
摘要: GraphRAG技术通过知识图谱重构传统RAG的检索逻辑,实现了从向量检索到图谱推理的代际升级。传统RAG依赖文本块向量检索,存在多跳推理弱、关系信息丢失等痛点;而GraphRAG将非结构化信息转化为结构化三元组,构建"实体-关系"网络,支持精确的关系遍历和复杂推理。典型框架如微软GraphRAG通过模块化架构实现企业级知识整合,在医疗、法律等垂直领域展现出显著优势。GraphRAG通过知识图谱技术解决了传统RAG的核心痛点,为大模型应用提供了更强的推理能力和精确的知识关联。
2025-10-29 17:15:18
709
原创 DeepSeek OCR:重新定义AI文档处理的“降本增效”新范式
DeepSeek OCR:AI文档处理新标杆 DeepSeek OCR突破传统OCR技术瓶颈,通过三大技术创新重新定义文档处理效率:1)视觉压缩引擎实现10倍压缩率下97%无损还原;2)多模态架构支持文字、表格、图像同步识别;3)高效推理框架单日可处理20万页文档。该技术有效解决了行业三大痛点:文档信息断层、高额生成成本和长文本对话断档问题。目前已成功应用于企业办公、学术研究、教育数字化等六大场景,在企业批量文档处理中实现效率提升10倍,学术论文公式识别准确率达92.1%,显著提升各行业文档处理效率与质量。
2025-10-22 22:08:25
821
原创 Embedding与词表示技术:从OneHot到FastText的演进
本文介绍了Embedding技术的发展历程,从OneHot编码到Word2Vec分布式表示。OneHot编码简单高效,但存在高维稀疏和语义缺失问题。Word2Vec通过CBOW和Skip-gram模型实现词向量化,CBOW用上下文预测中心词,Skip-gram用中心词预测上下文,两者都能生成低维稠密向量,有效捕捉词语义关系。文章提供了PyTorch实现代码,展示了如何构建这两种模型。Embedding技术使机器能够理解非结构化数据,为NLP任务奠定了基础。
2025-10-22 22:00:19
491
原创 分词(Tokenization):大语言模型的基础核心技术
分词(Tokenization)是大语言模型(LLM)的核心基础技术,旨在将文本拆分为具有语义的词元(token)。主流分词方法包括词粒度、字符粒度和子词粒度,其中子词粒度(如BPE、WordPiece)通过平衡词表大小与语义表达成为LLM的默认选择。分词质量直接影响模型性能,是导致LLM拼写错误、数字处理异常等问题的根源。当前主流工具库(如SentencePiece、Hugging Face Tokenizers)提供了高效实现。选择分词方案需结合任务需求,如BPE适合生成式模型,WordPiece适配理
2025-10-22 01:29:19
485
原创 DeepSeek-7B-chat 4bits量化 QLora 微调
本文介绍了DeepSeek-7B-chat模型的4bits量化QLora微调方法,使普通显卡(6G显存)也能训练7B大模型。教程包含环境配置、指令集构建、数据格式化处理、半精度模型加载、Lora参数配置等关键步骤。通过量化技术和Lora微调,显著降低了训练资源需求,同时提供了完整代码示例和参数说明,帮助开发者在有限硬件条件下实现大模型微调。配套的Jupyter Notebook和详细注释使学习过程更加直观。
2025-10-18 14:46:38
719
原创 DeepSeek-R1-Distill-Qwen-7B vLLM 部署调用
本文介绍了使用vLLM框架部署和调用DeepSeek-R1-Distill-Qwen-7B模型的方法。vLLM是一个高效的大语言模型推理系统,具有内存管理优化、高吞吐量和易用性等特点。文章提供了环境准备步骤(Ubuntu 22.04+Python 3.12+CUDA 12.1),模型下载方法(通过ModelScope),以及核心调用代码示例。代码展示了如何初始化vLLM引擎、设置采样参数,并处理模型输出。特别说明该模型需要以"<think>\n"结尾的提示词格式,并给出了温度
2025-10-18 14:44:46
994
原创 GLM-4.1V-Thinking vLLM部署调用
摘要:本文介绍了GLM-4.1V-Thinking视觉语言模型的部署与调用方法。该模型基于GLM-4-9B-0414基座模型,通过RLCS强化学习优化,达到10B参数级别的性能。文章详细说明了环境准备(PyTorch 2.5.1/Python 3.12/CUDA 12.4/A800 GPU)、模型下载(支持Hugging Face和ModelScope两种方式)、以及transformers和vLLM两种调用方式。其中transformers调用示例展示了视频内容分析能力,vLLM调用则提供了更高效的推理封
2025-10-17 23:46:19
893
原创 零基础也能看懂的Transformer详解
Transformer是一种基于自注意力机制的神经网络模型,主要由Encoder和Decoder两部分组成,各包含6个block。输入表示由单词Embedding和位置Embedding相加得到,位置Embedding通过正弦/余弦函数计算,保留了序列信息。Encoder将输入编码为上下文矩阵后传递给Decoder,Decoder通过自回归方式逐步生成输出,使用Mask防止信息泄露。核心组件Multi-Head Attention由多个Self-Attention组成,通过Q、K、V矩阵计算注意力权重。模型
2025-10-15 13:59:48
1186
原创 什么是Agent?当今为什么这么重要?
本文探讨了AI Agent的演变、架构和未来前景。AI Agent与传统AI模型的关键区别在于其自主性、持续性和行动能力,能够感知环境、制定决策并执行目标导向的任务。文章介绍了AI Agent的核心能力,包括持久记忆、工具使用、任务分解和协作,以及标准化协议(MCP和A2A)如何促进Agent互操作性。此外,还分析了Agent的架构模式,如工具集成、上下文管理和分层规划,这些特性使Agent能处理复杂任务。作者认为,AI Agent代表从工具到工作者的范式转变,将为企业带来全新价值。
2025-10-15 13:51:43
667
原创 大模型参数高效微调技术原理综述(五)-LoRA、AdaLoRA、QLoRA
摘要:随着大模型时代的到来,参数高效微调技术成为让普通开发者训练大模型的关键。本文介绍了三种主流微调方法:LoRA通过低秩分解减少参数量,AdaLoRA动态调整矩阵秩分配,QLoRA实现4bit量化微调。这些方法在保持模型性能的同时显著降低了计算资源需求,其中QLoRA甚至能在4bit精度下完成微调。实验表明,这些技术在多数任务中能达到或超过全量微调的效果,极大降低了AI模型开发的门槛。
2025-10-11 19:47:32
402
原创 大模型参数高效微调技术原理综述(一)背景、参数高效微调简介
本文介绍了大模型参数高效微调技术的背景与发展。随着ChatGPT等大模型兴起,全量微调在消费级硬件上变得不可行,催生了参数高效微调技术。文章首先讲解了Transformer架构及其核心组件Self-Attention和BERT模型,指出"预训练+微调"已成为NLP主流范式。随后对比了全量微调与参数高效微调在资源消耗上的显著差异,说明后者在计算和存储成本上的优势。最后将高效微调技术分为三类:增加参数、选择性更新和重参数化,并预告后续将详细讲解BitFit、Prefix Tuning等主流方
2025-10-11 19:41:20
375
原创 大模型推理框架概述
本文概述了当前主流的大模型推理框架vLLM、HuggingFace TGI和FasterTransformer。vLLM通过PagedAttention技术实现高吞吐量,比HuggingFace快14-24倍。HuggingFace TGI支持多种模型优化和量化技术,适用于依赖HuggingFace生态的场景。FasterTransformer由NVIDIA推出,通过层融合、内存优化等技术加速推理,支持分布式计算。这些框架各有优势,开发者可根据需求选择适合的方案。更多资源可参考提供的GitHub链接。
2025-10-10 20:37:28
1071
原创 大模型量化技术原理:QoQ量化及QServe推理服务系统
大模型量化技术研究进展 随着Transformer和MOE架构的发展,深度学习模型参数量已突破万亿规模,模型压缩技术成为降低部署成本和提升推理性能的关键。目前主流模型压缩方法包括剪枝、知识蒸馏和量化三种。本文重点探讨大模型量化方案,分析现有W4A16、W8A8和W4A4量化方法的优劣势,并提出新型W4A8KV4量化算法QoQ。 研究发现,W4A16在内存受限场景表现优异,W8A8在计算密集时更具优势,而W4A4虽理论性能高但实际效果不佳。QoQ算法创新性地采用渐进式分组量化,通过两阶段量化过程(先INT8逐
2025-10-10 20:35:54
820
原创 大模型分布式训练并行技术(一)概述
本文介绍了大模型分布式训练的常见并行技术,包括数据并行、模型并行(张量并行和流水线并行)、优化器相关并行(如ZeRO)、异构系统并行、多维混合并行、自动并行以及MOE并行/专家并行。这些技术通过划分计算任务、训练数据和模型,实现高效的大规模模型训练。文章还分析了不同并行技术的优缺点和适用场景,为开发者提供了分布式训练的技术选择参考。这些并行方法可以单独或组合使用,以应对不同规模模型的训练需求,提高计算资源利用率和训练效率。
2025-10-09 14:51:11
1023
原创 京东开源王炸!JoyAgent-JDGenie如何重新定义智能体开发?
在开源智能体的激烈竞争中,JoyAgent-JDGenie 凭借京东零售多年的深厚技术沉淀脱颖而出,展现出独特的优势。京东作为电商巨头,在长期的业务运营中积累了海量的数据和丰富的业务场景,这些宝贵的资源为 JoyAgent-JDGenie 的发展提供了坚实的基础。该框架内置了分布式系统容错机制,这一机制就像是智能体的 “稳定器”。在面对复杂多变的业务环境时,它能够自动检测和处理系统中的故障,确保智能体的稳定运行。
2025-10-09 14:47:01
966
原创 动手学大模型:大模型越狱攻击
本文介绍了EasyJailbreak工具包,这是一个专注于大语言模型(LLM)安全研究的越狱攻击框架。该工具集成了11种主流越狱攻击方法,将攻击过程分解为初始化、约束添加、突变、攻击和评估等可迭代步骤。文章详细讲解了EasyJailbreak的三大部分架构,包括攻击准备、攻击循环(包含突变和推理过程)以及结果报告。通过PAIR方法示例,展示了如何加载模型、准备数据集、设置攻击参数并执行攻击。此外,还介绍了如何自定义攻击流程,包括设置恶意查询、加载目标模型、配置越狱提示、选择器、突变器等模块。最后给出了一个基
2025-10-07 15:54:32
1263
原创 动手学大模型:多模态大语言模型
摘要:多模态大语言模型(MLLM)理论与实践 本文介绍了多模态大语言模型的架构设计与实现方法。主要内容包括: MLLM的两大主流架构:LLM作为调度器或系统核心模块 通用MLLM框架NExT-GPT的分析,支持任意模态输入输出 实践环节提供了完整的代码框架,包含数据处理、模型配置和训练流程 文章通过理论讲解与代码实践结合的方式,帮助开发者掌握MLLM的构建方法。关键点在于利用语言模型作为多模态智能枢纽,通过编码器-LLM-解码器框架实现跨模态理解与生成。
2025-10-07 15:52:56
1053
原创 DeepSeek-7B-chat Lora 微调
本文介绍了使用LoRA方法对DeepSeek-7B-chat模型进行微调的过程。主要包括:1)环境配置和依赖库安装;2)指令集构建方法,以Chat-甄嬛项目为例说明个性化指令设计;3)数据处理流程,包括文本编码和格式化;4)模型加载和LoRA参数设置;5)训练参数配置;6)使用Trainer进行训练;7)模型推理示例。教程提供了完整的Jupyter notebook文件和相关数据集,适合开发者学习大模型微调技术。
2025-10-06 20:27:04
1316
原创 DeepSeek-R1-Distill-Qwen-7B FastApi 部署调用
本文介绍了如何在FastAPI中部署调用DeepSeek-R1-Distill-Qwen-7B大模型。主要内容包括:环境准备(Ubuntu 22.04、Python 3.12、CUDA 12.1等)、模型下载(使用modelscope库)、代码实现(基于FastAPI构建API服务,包含文本处理、模型加载和推理逻辑)以及API部署测试。文章提供了详细的代码注释和调用示例,支持通过curl或Python requests进行接口调用。此外还提供了AutoDL平台的环境镜像链接,方便开发者快速搭建运行环境。完整
2025-10-05 19:28:29
752
原创 三句话搞定周末出行攻略!我用 AI 生成一日游可视化页面,还能秒上线
文章摘要:本文介绍了如何利用AI与高德地图、EdgeOne Pages Deploy的MCP Server功能,快速生成并部署可视化一日游行程页面。用户只需通过自然语言输入需求(如"深圳轻松一日游推荐"),AI即可调用高德地图API获取景点/餐饮信息,自动编排合理路线,生成美观的HTML页面,并通过EdgeOne实现秒级部署。最终生成的可分享链接包含完整行程规划、景点介绍和实用信息,全程无需编码,展示了AI与MCP服务结合的便捷性。(149字)
2025-10-05 19:24:02
747
原创 一文掌握MCP上下文协议:从理论到实践
MCP协议简介 MCP(模型上下文协议)是一种标准化LLM与外部数据交互的开放协议,由Anthropic于2024年推出。该协议采用CS架构,包含客户端、服务器和主机三个组件,支持通过JSON-RPC格式进行通信。MCP提供了两种传输方式:标准输入输出(stdio)和服务器推送事件(SSE)。协议核心功能包括Roots(定义资源边界)和Sampling(安全采样机制),通过统一接口使AI应用能够安全访问本地和远程资源,提升模型的功能性和扩展性。
2025-10-03 15:31:16
1138
原创 RAG 入门全流程代码实战
RAG(检索增强生成)入门指南,介绍如何结合信息检索与生成模型来增强AI响应准确性。文章详细讲解了从PDF提取文本、分块处理、创建嵌入向量到语义搜索的实现步骤,包括代码示例。关键步骤包括:使用PyMuPDF提取文本,将文本分割为重叠块,通过OpenAI API生成嵌入向量,最后利用余弦相似度进行语义搜索以匹配用户查询。该技术能有效提升语言模型在特定知识领域的表现和事实准确性。
2025-10-03 15:25:01
241
原创 动手学大模型:大模型知识编辑
本教程介绍了如何使用EasyEdit工具包对语言模型进行知识编辑。EasyEdit是一个Python包,支持多种大模型(如GPT、Llama等)的特定知识修改,而不影响其他输入性能。教程详细讲解了ROME方法的应用步骤:选择编辑方法、准备参数和知识数据、实例化Editor并执行编辑。还包括验证评估方法,如局部性测试和生成结果对比,以及批量编辑和基准测试的扩展应用。该工具提供了统一的编辑框架,使模型知识修改变得简便高效。
2025-10-02 22:06:11
913
原创 大模型提示学习与思维链
导读: 该部分介绍大模型的API调用与推理指南”AI在线求鼓励?大模型对一些问题的回答令人大跌眼镜,但它可能只是想要一句「鼓励」”https://mp.weixin.qq.com/s/LD5UL_CgDwUfPFb_lafGng。
2025-10-02 22:05:07
1189
原创 深度学习基础知识-深度神经网络基础
摘要:本文对比了Batch Normalization(BN)和Layer Normalization(LN)的区别与适用场景。BN通过批样本的同一特征维度进行归一化,适用于CV领域;LN则对quee样本内所有特征归一化,更适合NLP任务。两者都通过缩放因子和偏移参数优化训练ALayer性能,但参数计算不同。此外还分析了SGD、Adam和AdamW等优化器特点,指出AdamW通过直接修改权重衰减修正了Adam的bug。完整内容包含详细公式、代码示例和参数计算,适合深度学习开发者参考。
2025-10-01 15:41:08
789
原创 深度学习基础知识-Transformer基础
本文介绍了Transformer模型中的自注意力机制及其实现细节。首先讲解了自注意力层的计算过程,包括Q、K、V的线性变换、多头注意力重要的是要除以√d_k进行缩放,以防止梯度消失。文章还讨论了位置编码的必要性,并详细介绍了RoPE和Alibi两种位置编码方法。RoPE通过旋转实现相对位置编码,而Alibi则通过偏 bare attention分数来引入位置信息。文中提供了自注意力层的Python实现代码,并解释了关键设计选择的数学原理。这些技术为处理序列数据提供了有效的位置捕捉能力。
2025-10-01 15:39:16
1431
原创 动手学大模型:RLHF
文章摘要: 本文介绍了使用PPO(Proximal Policy Optimization)算法进行大模型RLHF(Reinforcement Learning from Human Feedback)训练的方法。重点展示了如何微调GPT-2模型生成积极电影评论的实验过程:1)通过BERT情感分类器作为奖励函数;2)使用IMDB数据集中的评论起始部分生成后续内容;3)利用分类器输出作为PPO训练的奖励信号。实验详细说明了模型配置、数据预处理、训练流程等关键步骤,并提供了完整的代码实现框架,展示了RLHF技术
2025-09-30 22:18:28
804
原创 JoyAgent-JDGenie深度评测:从开箱到实战,多智能体框架的工业级答卷
JoyAgent-JDGenie深度评测:京东开源多智能体框架解析 京东开源的JoyAgent-JDGenie智能体框架凭借GAIA榜单75.15%的准确率和5分钟Docker部署能力引发关注。其核心技术亮点包括:1)端到端智能体协同系统,支持React快速响应和Plan-Executor任务分解;2)开箱即用的产品化设计,原生支持6种文件格式和12+常用工具;3)轻量化部署方案,5分钟完成环境构建并支持200+并发任务。实测显示,该框架在消费级场景(如旅行规划)和企业级应用(如市场分析)中均表现优异,可提
2025-09-30 22:13:01
874
原创 编码器(Encoder)详解
本文详细介绍了Transformer模型中的编码器(Encoder)结构和多头自注意力机制(Multi-Head Self-Attention)。编码器由6个相同子模块堆叠组成,每个子模块包含多头自注意力层和前馈神经网络层,并通过残差连接和层归一化保持训练稳定性。多头自注意力机制通过将输入映射为查询(Q)、键(K)、值(V)三个矩阵,利用缩放点积计算注意力权重,实现并行化高效计算。文章还解释了缩放因子√d_k的作用、多头注意力的计算原理,以及为何选择点乘而非加法作为注意力计算方式。整个架构通过注意力机制有效
2025-09-29 13:44:59
874
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅