自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(140)
  • 收藏
  • 关注

原创 Fine-Tuning目前主流的三种微调方式有什么区别?

本文系统介绍了三种主流的大语言模型微调技术:Prompt-tuning通过优化输入提示激发模型能力,无需调整模型参数;Prefix-tuning在输入序列前端插入可训练前缀参数调控编码方式;LoRA则通过训练低秩矩阵高效微调模型。三种方法各有优势,可针对不同任务需求选择。文章还推荐了LoRA微调工具LLaMA-Factory,并分析了关键参数设置。随着AI大模型快速发展,掌握这些微调技术将有助于从业者适应行业需求。文末提供了大模型学习资源获取方式。

2025-06-11 18:37:02 601

原创 模型并行是什么?一文说清模型并行(Model Parallelism)

随着大模型(比如 GPT、PaLM)的规模越来越大,参数动辄千亿级,甚至一个模型的“单层参数”都可能装不进一张 GPU 的显存!这时候,我们就要搬出“模型并行”技术来帮忙啦~

2025-06-09 11:24:59 598

原创 模型蒸馏是什么?一文带你搞懂“模型蒸馏”看这篇就够了!

就像一位资深大厨(大模型)教徒弟(小模型)做菜。徒弟不需要背下所有菜谱(全部训练数据),只需模仿师傅的做菜方式和调味技巧(推理轨迹/推理输出),也能做出味道相近的菜肴。

2025-06-07 10:33:20 516

原创 Beam Search是什么?一文讲清AI大模型知识点Beam Search(束搜索)

模型会根据设定的 Decode 策略,从中选择一个词输出。这个选择过程被称为: Decoding,而 BeamSearch(束搜索)就是其中一种常用的 Decode 策略。

2025-06-06 16:17:07 529

原创 【AI大模型知识点扫盲】Transformer到底是个啥?(说人话版)

Transformer架构简介 Transformer是一种革命性的深度学习模型,采用自注意力机制并行处理序列数据,克服了传统RNN的顺序处理限制。该架构由编码器和解码器组成,核心组件包括多头注意力机制、位置编码、前馈网络等,能够高效捕捉长距离依赖关系。其并行处理能力和可扩展性推动了BERT、GPT等大模型的发展,成为当前自然语言处理领域的主流架构。随着AI技术的快速发展,掌握Transformer等大模型技术将为职业发展带来新机遇。

2025-06-05 15:20:25 979

原创 一文讲清:AI大模型轻量化的5个主流方法,看完你就懂了!

摘要: 本文介绍了五种主流的神经网络压缩与加速技术:1)低秩分解通过张量分解降低参数规模;2)剪枝技术剔除不重要连接实现稀疏化;3)量化方法减少数值精度以优化存储计算;4)知识蒸馏将大模型知识迁移至轻量学生网络;5)架构搜索自动设计高效网络结构。随着AI大模型爆发式增长(国内超10亿参数模型已逾百个),相关人才需求激增(2025年预计缺口达千万)。文末提供包含学习路线、书籍报告等资源的全套AI大模型学习资料。

2025-06-03 15:25:11 281

原创 AI大模型中的思维链(chain of Thought, CoT)是什么?看完小白也悟了!

摘要:思维链(CoT)是一种让AI逐步展示推理过程的提示方法,显著提升复杂问题(如数学题、逻辑推理)的准确率。通过分步解析,AI能调动相关逻辑模块,自我纠错,类似人类解题时的思考过程。思维链分为显式(可见步骤)和隐式(仅输出结果)两种形式,但仍存在模型能力依赖、冗余步骤和效率问题等局限。随着AI大模型的快速发展,相关人才需求激增,学习AI大模型成为新兴行业的重要机会,需要系统化学习和持续投入。

2025-05-30 11:28:32 575

原创 Pre-Training、Fine-Tuning、SFT、LoRA、RLHF之间有什么关系?

深度学习中的预训练与微调技术综述 预训练(Pre-Training)是在大规模数据集上训练基础模型,使其学习通用特征,为下游任务提供良好初始状态。微调(Fine-Tuning)则针对特定任务在小规模标注数据上调整模型参数。文章介绍了预训练流程、微调方法(包括全参数微调和高效微调技术如LORA),以及监督微调(SFT)和基于人类反馈的强化学习(RLHF)等进阶技术。这些方法能有效提升模型性能,降低训练成本,使AI大模型更好地适应不同领域需求。随着AI技术快速发展,掌握这些核心技术对职业发展具有重要意义。

2025-05-29 15:28:02 976

原创 什么是注意力机制?什么是自注意力机制?二者有何区别?

本文深入浅出地讲解了AI大模型中的核心机制——注意力与自注意力。通过类比"学霸划重点"和"自助餐厅选餐"等生活化场景,形象阐述了注意力机制如何让AI动态聚焦关键信息。重点解析了自注意力的QKV计算流程、多头注意力架构等技术原理,并对比了与传统RNN/CNN的差异。文章强调自注意力机制是Transformer的核心突破,使AI能够高效处理长距离依赖关系。同时指出AI行业人才缺口巨大,提供从基础到进阶的系统学习资源路径,帮助读者把握技术发展机遇。

2025-05-28 14:58:35 900

原创 AI大模型中BERT的Embedding到底是个什么?看完小白也懂了!

摘要: Embedding是将文本转化为语义向量(浮点数数组)的技术,通过向量距离反映语义相关性。其生成方式分为两类:1)大模型推理中的Token级Embedding,通过分词和词表映射实现;2)独立使用的句子/文档级Embedding(如Sentence-BERT),用于检索和相似性分析。本质是模型通过海量数据学习到的语义数学表示(如“猫”与“狗”向量相近)。应用场景包括RAG、相似性判断和文本聚类。与Token不同,Embedding是训练得到的连续向量,长度固定。大模型(如Qwen)与小模型(如BER

2025-05-27 14:36:18 813

原创 知识图谱是什么?和AI大模型有什么关系 ?

知识图谱是一种结构化表示信息的方法,通过实体和关系描述事实(如"张三在苹果公司工作")。随着大模型的发展,知识图谱因其能有效缓解大模型幻觉问题而重新受到关注。相比传统RAG方案,知识图谱在解决复杂关系查询(如"技术团队成果汇总")时更具优势,能与向量数据库形成互补。实际应用中可采用多路召回策略,结合关系型数据库、向量数据库和知识图谱。AI大模型领域人才缺口巨大,建议把握学习机会获取相关资源。

2025-05-26 14:08:05 670

原创 【写给小白的LLM】AI大模型中的 token 到底是个什么?

本文介绍了AI大模型中的核心概念——Token。Token是文本处理的最小单位,相当于AI理解语言的"积木块",可以是一个单词、标点符号或子词。文章解释了中英文Token的差异:中文1个Token约1-2个汉字,英文1个Token约0.75个单词。Token数量直接影响AI服务的计费(如ChatGPT按Token收费)和内容长度限制(如GPT-3.5最多支持4096 Tokens)。技术层面,Token通过分词算法转换,每个Token对应唯一ID和数学向量。文章还提供了优化Token使用

2025-05-24 15:00:59 711

原创 AI大模型幻觉是什么?为什么会“幻觉”?一篇让你秒懂的大白话文章!

大模型幻觉(Al hallucination 或 Model Hallucination)是指Al基于概率生成的"自信型错误",输出看似合理但完全失实的内容,像极了人类"不懂装懂"的样子。

2025-05-22 14:53:42 411

原创 AI大模型推理框架,vLLM和SGLang有什么区别?

SGLang与vLLM大模型推理框架对比分析 SGLang专为高并发和复杂任务设计,在多轮对话、格式化输出等场景表现优异,其RadixAttention技术可提升缓存复用率3-5倍。vLLM则在单轮推理场景优势明显,采用PagedAttention技术实现高效内存管理。测试数据显示,SGLang在高并发下吞吐量更稳定,而vLLM在首字响应速度上更快。选择建议:复杂交互选SGLang,简单高并发选vLLM,实际应用需结合业务场景实测验证。当前AI大模型领域快速发展,掌握相关技术将带来职业新机遇。<|en

2025-05-21 15:05:11 1012

原创 一文读懂:AI大模型分布式训练并行技术

随着深度学习模型参数量的急剧增加,传统的单机单卡训练方式已无法满足需求,分布式训练成为解决这一问题的关键。本文深入探讨了分布式训练中的多种并行技术,包括数据并行、流水线并行、张量并行、序列并行、多维混合并行、自动并行和MOE并行。这些技术通过不同的方式对计算负载、训练样本及模型结构进行切分,以实现存储与计算资源的分布式调度,从而支持超大规模模型的训练。文章还分析了在不同硬件配置下如何选择合适的并行策略,并指出自动并行技术在工业界应用中的局限性。分布式训练技术的深入研究对于推动AI大模型的发展具有重要意义。

2025-05-20 11:08:40 584

原创 一文说清:为什么SFT负责记忆 ,RL负责泛化?

本文探讨了监督微调(SFT)和强化学习(RL)在基础模型后训练中对泛化能力的影响。通过引入Generalpoints算术推理卡牌游戏和V-IRL真实世界导航环境,研究比较了SFT和RL在文本和视觉领域的泛化表现。结果表明,RL在基于规则的文本和视觉环境中展现出更强的泛化能力,而SFT则倾向于记忆训练数据,难以泛化到分布外的数据。尽管RL在泛化方面表现优越,但SFT在稳定模型输出格式方面仍具有重要作用,为后续RL训练提供了基础。研究还发现,扩展推理时计算有助于提升模型的泛化能力,特别是在视觉语言模型中。这些发

2025-05-19 14:52:20 720

原创 太牛了!DeepSeek+Word一键统一图片尺寸和审核专业合同

DeepSeek作为一款AI工具,近期因其高效功能而广受欢迎。文章通过两个实例展示了DeepSeek在Word文档处理中的强大能力:一是通过生成VBA代码一键统一图片尺寸,二是利用AI审核合同,提供专业建议。这些功能不仅提高了工作效率,还展示了AI在办公自动化中的潜力。文章还强调了AI技术的快速发展及其在各行各业中的应用前景,鼓励读者积极学习和掌握AI技术,以应对未来职场的挑战。最后,文章提供了AI大模型学习的资源链接,帮助读者从入门到精通。

2025-05-16 17:36:12 733

原创 终于有人把AI大模型三种模式:Agent、copilot、embedding讲清楚了!

三种模式的变化过程从完全依靠到慢慢放手,这三种模式说明人使用 AI 时想法的改变:**Embedding 模式**:人做主要工作,AI 帮忙(我做你看)**Copilot 模式**:人和 AI 一起做(我们一起做)**Agent 模式**:AI 自己做,人看着(你做我看)这说明 AI 能力变强了,人也更相信 AI 了。从“不敢让 AI 做”到“敢让 AI 做”,这是技术和心理都在进步的结果。

2025-05-16 15:27:08 857

原创 手搓多Agent协作智能体,这也太丝滑了吧!

本文介绍了多Agent模式在AI应用中的使用,通过将复杂任务拆分为多个简单任务,每个任务由专门的Agent完成,提高了效率和专业性。文章以“资讯助手”和“职业规划助手”为例,展示了多Agent模式的实际应用,包括任务规划、联网搜索、脑图生成和内容总结等功能。同时,文章强调了AI大模型领域的快速发展及其带来的职业机会,鼓励读者学习和掌握相关技能。尽管多Agent模式存在一定的不确定性,但其在复杂任务处理中的优势明显,未来有望进一步发展。

2025-05-15 14:59:29 903

原创 终于有人讲清楚RAG、Langchain、Agent之间的关系和概念了!

综上所述,Transformer、BERT、GPT并不是同一技术路线的产物,但作为自然语言处理领域的三大里程碑模型,它们在架构设计和应用场景上存在深刻的关联性。这些技术频繁出现在行业讨论中的原因,在于它们正在重塑人机交互的范式。建议技术从业者尽快掌握这些核心模型,在人工智能重构各行业的浪潮中,唯有持续更新技术认知,才能保持竞争优势。

2025-05-15 11:09:45 751

原创 大语言模型中的“温度”参数到底是什么?如何正确设置?

近年来,随着大模型的快速发展,许多工具如 Dify 和 Cherry Studio 提供了 “温度”(Temperature)参数,用于调节模型输出的确定性与创造性。低温(接近0)使输出更加固定,适合代码生成、知识问答等任务;高温(接近1)则增加随机性,适合创意写作、头脑风暴等场景。温度通过影响 softmax 采样机制,调控模型生成内容的多样性。最佳实践建议根据任务需求选择合适温度:低温(0.2-0.3)用于确定性任务,中等温度(0.5-0.7)平衡创造性与确定性,高温(0.8-1.0)用于灵感启发。合理

2025-05-14 20:17:57 606

原创 【万字综述】提示文档:超全prompt指令汇总,看这篇就够了!

本文介绍了大型语言模型(LLM)在Prompt Engineering领域的最新技巧和发展趋势。文章分为12个部分,重点探讨了零样本提示(Zero-Shot Prompting)和少样本提示(Few-Shot Prompting)等技术,这些技术通过巧妙设计的提示引导模型执行新任务,减少对大规模训练数据的依赖。此外,文章还深入探讨了推理与逻辑领域的技术创新,如链式思考(Chain-of-Thought, CoT)、自动链式思考(Auto-CoT)、自我一致性(Self-Consistency)等,这些技术通

2025-05-14 14:32:56 502

原创 ICLR 2025 | 告别Token丢弃:更适合CoT和多轮对话的长文本推理加速方法

近年来,大语言模型(LLMs)展现了在文档问答、长对话、复杂指令遵循等场景下的强大能力。然而,随着上下文长度的增长,一个关键的瓶颈日益凸显——KV Cache(键值缓存)带来的巨大 GPU 显存开销。为了缓解这一问题,现有方法通常基于注意力稀疏性假设,在推理过程中**丢弃(discard)**它们认为不重要的 KV Cache。但这带来了一个新的困境:注意力分数是基 *当前* 隐藏状态计算的,无法完全预示 Token 在 *未来* 推理步骤中的重要性。

2025-05-13 18:40:02 841

原创 LLM为什么都是decoder-only架构,而不是encoder-only

面试官:“为什么现在的大模型大都是decoder-only架构?"懵逼的我TAT:“呃呃,和encoder-only相比,它既能做理解也能做生成,预训练的数据量和参数量上去之后,GPT这样的decoder-only模型的zero-shot泛化能力Q很好,而BERTQ这样的encoder-only模型一般还需要少量的下游标注数据来fine-tuneQ才能得到较好的性能。"面试官礼貌地说有点道理,然后开始发威:“那T5这种encoder-decoder也能兼顾理解和生成啊?像FLAN那样instruct

2025-05-13 11:59:39 754

原创 所有AI产品经理必须了解的协议:不懂MCP恐被淘汰!

在AI技术快速发展的背景下,Anthropic推出的Model Context Protocol(MCP)正成为行业新标准,旨在解决数据孤岛和接口不统一的问题。MCP通过定义一套开放协议,实现大模型与外部数据、工具接口、业务系统的无缝对接,提升数据流转效率和系统集成速度。其核心价值在于简化AI产品的开发流程,降低适配成本,加速迭代,并确保数据安全。MCP的引入不仅为AI产品经理、工具提供商和企业架构师带来便利,也为企业在AI时代的竞争中提供了新的制胜法宝。掌握MCP,意味着在AI浪潮中占据先机,推动产品智能

2025-05-12 19:32:39 945

原创 其实学AI大模型无非就是这些……看完这篇我一下子就顿悟了!

近年来,AI大模型技术迅速发展,我国已涌现出超过100个超10亿参数的大模型。AI领域预计到2025年将面临1000万人才缺口,尤其是算法和工程应用类人才。学习AI大模型是一项系统工程,涉及Transformer结构、主流大模型、预训练与后训练过程、模型压缩与量化、专家模型MoE、RAG&Agent、部署与推理加速、模型评估等多个方面。尽管学习过程需要时间和持续努力,但随着技术发展和在线资源的丰富,零基础的学习者也有机会逐步掌握这些知识。建议学习者结合相关论文和源码,关注最新动态,以应对这一快速变化

2025-05-12 11:31:10 773

原创 AI赋能企业:如何根据业务需求选择最佳的大模型架构?

在现代企业中,人工智能技术的应用越来越普遍,尤其是大模型的崛起。无论是提升员工效率,还是优化业务流程,AI都在发挥着越来越重要的作用。那么,企业该如何选择适合的AI大模型架构呢?是AI嵌入(Embedded)模式,AI副驾驶(Copilot)模式,还是AI代理(Agent)模式?

2025-05-09 20:01:36 957

原创 终于有人说清楚MCP、A2A、Function calling三者的关系和概念了!

从基础大模型的能力锻造,到赋予其API接口的触手延伸,再到定义智能体与环境交互的协议框架,最终打通多模态智能体的协作通道。这一系列的发展就像是为一个聪明的大脑逐步武装四肢,赋予多种能力,最终使其能够协作完成复杂任务,形成一个高效的团队。接下来,我们对 MCP、A2A和 Function Calling 进行全面的解读与对比,探讨它们之间的具体区别以及如何实现合作。

2025-05-09 14:08:41 829

原创 ICLR 2025 | 大模型“遗忘”竟是错觉?首次揭示LLM训练中的“虚假遗忘”

还记得,我们刚刚提到,模型在 Task 1 开始时主要是“消解(Undo)”旧任务对齐,而后续训练,主要是同时学习新任务对齐与新任务知识。训练后期(150 步后):模型逐渐同时学习新任务对齐(未在图中体现)与新任务知识(横轴方向向右更新),旧任务的对齐(纵轴方向上向下更新)在新任务学习过程当中有所恢复,但无法自动回到原先 100% 的性能。两阶段更新的正交性导致对齐冲突:在顺序微调的情况下,新任务与旧任务的对齐方向直接是正交的,导致学习新任务时,旧任务的对齐无法被恢复,从而导致灾难遗忘。

2025-05-08 17:57:21 929

原创 多模态数字人+LLM+RAG+领域蒸馏微调=王炸

本文详细阐述了一个综合技术方案,整合多模态数字人、大语言模型(Qwen3)、检索增强生成(RAGFlow)和知识蒸馏,构建一个支持文本、语音、图像交互的智能系统。: LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Yi、Gemma、Baichuan、ChatGLMPhi等等。: (增量)预训练、(多模态)指令监督微调、奖励模型训练、PPO训练、DPO训练、KTO训练、ORPO 训练等等。随着人工智能技术的快速发展,多模态交互和大语言模型(LLM)的结合为智能系统带来了新的可能性。

2025-05-08 13:52:28 716

原创 终于有人讲清楚MCP、 RAG、 Agent之间的关系和概念了!

RAG 像一个认真的学生: 设想学生准备学术报告时,遇到模糊概念绝不空想,而是登录知网调阅文献,筛选出核心期刊的权威论文,再引用规范的实验数据来佐证观点。RAG就是AI的"文献溯源"能力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。如果 AI 只能思考决策(Agent),但没有可靠的信息来源(RAG):它可能会做出一些基于假设的决策,但这些决策可能不准确。如果 AI 只有 RAG 能力(只会查资料),但不会思考和使用工具:它可以回答一些基于事实的问题,但无法完成复杂的任务。

2025-05-07 14:16:26 730

原创 一文搞懂DeepSeek - 多头注意力(MHA)和多头潜在注意力(MLA)

在传统的Transformer架构中,多头注意力(MHA)机制允许模型同时关注输入的不同部分,每个注意力头都独立地学习输入序列中的不同特征。然而,随着序列长度的增长,键值(Key-Value,KV)缓存的大小也会线性增加,这给模型带来了显著的内存负担。多头注意力(MHA)通过线性变换将输入张量分别转换为查询(Q)、键(K)和值(V)矩阵,每个矩阵再被分割成多个头进行并行处理。多头潜在注意力(MLA)采用低秩联合压缩键值技术,优化了键值(KV)矩阵,显著减少了内存消耗并提高了推理效率。

2025-05-06 19:29:54 770

原创 大白话讲透一个大模型知识点——过拟合(overfitting)

大模型(如GPT、BERT等)参数量巨大(数十亿甚至万亿参数),理论上可以记住海量数据中的细节,但这也让过拟合的风险更高。小朋友只记住了你给的训练图片中的细节(比如某张图里的小狗狗戴了红色项圈),导致他认为“所有小狗都必须戴红色项圈”,遇到没戴项圈的小狗就无法识别。可能表现为训练损失(loss)很低,但实际应用中生成的内容不合理(例如胡言乱语),或者对数据中的噪声(比如标点错误、拼写错误)过于敏感。简单来说,模型“死记硬背”了训练数据的细节(甚至噪声),而不是真正理解数据的规律,导致泛化能力差。

2025-05-06 14:27:16 935

原创 Qwen3-0.6B这种迷你模型的意义和用途是什么?

由于模型架构的改进、训练数据的增加以及更有效的训练方法,Qwen3 Dense 基础模型的整体性能与参数更多的Qwen2.5基础模型相当。经过后训练的模型,例如 Qwen3-30B-A3B,以及它们的预训练基座模型(如 Qwen3-30B-A3B-Base),现已在 Hugging Face、ModelScope 和 Kaggle 等平台上开放使用。在第二阶段(S2),我们通过增加知识密集型数据(如 STEM、编程和推理任务)的比例来改进数据集,随后模型又在额外的 5 万亿个 token 上进行了预训练。

2025-05-05 19:19:09 994

原创 一文详解:8种常见的大模型微调方法,看这篇就够了!

P-Tuning v2是P-Tuning的进一步改进版,在P-Tuning中,连续提示被插入到输入序列的嵌入层中,除了语言模型的输入层,其他层的提示嵌入都来自于上一层。这种方法的优势在于不需要调整模型的所有权重,而是通过在输入中添加前缀来调整模型的行为,从而节省大量的计算资源,同时使得单一模型能够适应多种不同的任务。与传统的微调范式不同,前缀调整提出了一种新的策略,即在预训练的语言模型(LM)输入序列前添加可训练、任务特定的前缀,从而实现针对不同任务的微调。

2025-05-05 13:46:05 1519

原创 多模态大型语言模型(MLLM)综述 | 结构 训练 评估 幻觉 | (超详细总结)

此外,EVA模型还通过一种名为MaskImage Modeling的任务在更大数据集上进行了训练,它将遮蔽部分的图像与CLIP模型对应位置的输出进行比对,从而在保持语义学习的同时,也能让模型学习到几何结构。在零样本设置中,研究者选择涵盖不同任务的数据集,将其分为保留集(held-in)和留出集(held-out),在前者上进行调整后,在后者上评估模型的零样本性能。典型的多模态大型语言模型(MLLM)通常由三个主要组件构成:预训练的多态编码器、预训练的LLM(大型语言模型)、以及连接这两者的多模态接口。

2025-05-04 09:00:00 1424

原创 【万字详解】SFT 是什么?大模型SFT(监督微调)该怎么做(经验技巧+分析思路)

不用担心会破坏模型效果,毕竟 prompt 根本不算 loss,这么做的目的是适应线上用户的糟糕表达,没有一个用户会希望听到“不是我们的模型不行,而是你 prompt 写的不行”这种观点(我试了一圈,糟糕 prompt 的理解能力,感觉国内模型和 GPT4 的差距挺大的)。还是那句话,sft数据要的是质不是量。我前面提到过,实际工作中,出于耗时的考虑,可能不会用cot来训模型,但是数据生产的时候,为了保证回复质量还是应该让 GPT4用cot的方式进行回复,我们在训自己的模型的时候,省去cot 环节即可。

2025-05-03 09:15:00 1536

原创 RLHF是什么?一文说清RLHF(人类反馈强化学习)的概念和实现过程

当我们提高了抑制本能反应的能力并且能从一个超越当下自我的角度去思考自我以及和他人以及世界的关系,在某种意义上我们更像是一个人而不是一个AI,至少不是2025年的AI。每当模型生成一个回答,奖励模型就会给出评分,模型根据这个信号不断调整自己的策略,逐渐生成更符合人类偏好的内容。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。代理根据当前的奖励模型进行学习和行动,然后根据新的人类反馈来更新奖励模型。

2025-05-02 09:00:00 798

原创 MoE是什么?一文读懂“混合专家模型(MoE)”看这篇就够了!

总结来说,在混合专家模型(MoE)中,我们将传统 Transformer 模型中的每个前馈网络(FFN)层替换为 MoE层,其中 MoE 层由两个核心部分组成:一个门控网络和若干数量的专家。在微调稀疏混合专家模型 (MOE)时需要考虑的最后一个问题是,它们有特别的微调超参数设置–例如,稀疏模型往往更适合使用较小的批量大小和较高的学习率,这样可以获得更好的训练效果。稀疏模型更易于出现过拟合现象,因此在处理这些模型时,尝试更强的内部正则化措施是有益的,比如使用更高比例的dropout。

2025-05-01 09:00:00 603

原创 多模态RAG怎么做?读懂多模态RAG看这一篇就够了!

实验显示,使用 OmniSearch 自身作为子问题求解器不仅没有降低性能,反而提高了其问题解决能力,表明检索路径规划学习增强了模型的知识推理能力,带来了跨任务的收益。当使用 GPT-4V 作为 Qwen-VL-Chat 的子问题求解器时,OmniSearch 的性能显著提升,证明0了更强大的子问题求解器对模型整体性能的正面影响。细化检索query以获取更多的补充知识;为此,本文将探索如何将多模态模型集成至RAG 系统中,即看一看结合图像和文本是否可以提高 RAG 的性能,并找出了这种系统的最佳配置。

2025-04-30 11:22:05 1008

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除