Baihai IDP-优快云博客

原创「DeepSeek-V3 技术解析」：无辅助损失函数的负载均衡

在混合专家模型（MoE）的实践中，负载不均衡俨然已成为制约模型性能提升的关键瓶颈之一。传统的均衡策略往往需要引入复杂的辅助损失函数，不仅增加了训练的复杂度，还可能干扰模型的核心学习目标。工程师们在提升模型效率的道路上，一直苦苦追寻着一个优雅而高效的平衡解决方案。DeepSeek 团队的这项研究，为这一长期困扰业界的技术难题提供了令人耳目一新的解决思路：通过在门控分数中直接添加专家层面的偏置项，在绝大部分不引入额外损失函数的情况下，实现了模型训练过程中的自适应负载均衡。

2025-04-02 10:42:03 1122

原创为什么大模型在 OCR 任务上表现不佳？

更令人震惊的是，我们在最新的 SOTA 模型（OpenAI 的 o1、Anthropic 的新版本 3.5 Sonnet 和 Google 的Gemini 2.0 flash）上运行相同测试时，所有模型都会犯完全相同的错误。这些见解来自 Pulse 项目团队的一线实战经验，他们在为大型企业构建数据提取解决方案的过程中，积累了宝贵的第一手资料。当时我们还未曾意识到，在实现这一目标的过程中，会遇到一个障碍，而这个障碍彻底改变了我们对 Pulse 的开发思路。以一个包含“1,234.56”的简单表格单元格为例。

2025-03-28 10:51:43 1113

原创图解「模型上下文协议（MCP）」：从与传统 API 的比较入手

文章详细介绍了 MCP 的核心架构，包括 Host（提供 AI 交互环境的应用程序）、Client（实现与 MCP Servers 通信）和 Server（提供特定能力和数据访问）三大组件。我们今天带来的这篇文章，作者的核心观点是：MCP 通过标准化通信协议，让 AI 应用与外部工具、数据的交互如同 USB-C 接口一般高效且灵活，彻底改变传统 API 架构的僵化限制。MCP 的核心遵循客户端-服务器（client-server）架构，Host 应用程序可以连接到多个 Server。

2025-03-26 10:00:11 693

原创「DeepSeek-V3 技术解析」：DeepSeekMoE

应用更细粒度的专家分割（fine-grained expert segmentation）后，每种菜系所需的技能被拆分给多个专家掌握，于是我们得到一组专精中餐的厨师和另一组专精意大利菜的厨师，每位厨师只需掌握该菜系的特定技能。图3 © 也展示了该策略的实现方式：选定一个专家作为共享专家（绿色高亮标记），所有输入 token 均不经路由层（Router）直接激活该专家，同时将激活的专项专家数量从 4 个减至 3 个，使总激活专家数量与图 3 (b) 保持相同。换言之，路由专家具有更高专业性且冗余度更低。

2025-03-21 10:05:36 743

原创「DeepSeek-V3 技术解析」：多头潜在注意力机制（MLA）

在每个解码步骤中，仅计算新的查询向量 Q（Query），而缓存中存储的 K（Keys）和 V（Values）会被复用，注意力机制将通过新计算的 Q 与复用的 K、V 进行运算。为了更清晰地理解这一点，来看看使用公式 (7) 计算注意力时的情形：当我们对 q 进行转置并与 k 相乘时，矩阵 W^Q 和 W^{UK} 会出现在中间环节，它们的组合等效于从将 d_c（输入向量的维度）映射到目标维度 d。具体而言，RoPE 会对每个词元（token）的查询向量和键向量应用一个与位置相关的旋转矩阵。

2025-03-19 09:52:58 543

原创如何高效地为「推理模型」编写最佳提示词？万字长文介绍

作者 | Agustinmantaras编译 | 岳扬OpenAI 的 O1 和 O3-mini 是两款先进的推理模型，与基础版 GPT-4（通常称为 GPT-4o）在提示词处理和答案生成方式上存在明显差异。这些模型通过模拟人类的分析方法，在处理复杂问题时会投入更多时间进行“深度思考”。禁止尝试提取模型的内部推理过程，此类行为违反使用准则。本文将探讨 O1 与 O3-mini 在输入处理、推理能力和响应行为等方面与 GPT-4o 的区别，并阐述优化推理模型性能的提示词工程最佳实践。最后，我们将这些方法论应用

2025-03-14 10:03:09 451

原创为什么说 JSON 不一定是 LLM 结构化输出的最佳选择？

如前文所述，CSV 格式的挑战在于逗号在数据中较为常见，这可能会导致两种情况：要么是需要更多的 tokens 来处理这些逗号，要么是 LLM 在处理时未能正确进行转义，从而产生错误的数据。因此，如果你的数据可能包含逗号，最好避免使用 CSV，或者设计一个详尽的提示词，并实施有效的评估流程，以便准确衡量其可靠性。我们今天为大家带来的文章中，作者通过实际测试给出建议：在某些场景下，相比广泛使用的 JSON 格式，不妨考虑一下其他数据格式，做一些测试，挑选出既能控制成本又能保证稳定性和速度的最佳选项。

2025-03-12 10:29:27 611

原创 7B 开源模型性能超越 LLaVA，DeepSeek Janus Pro 论文详解

提到 DeepSeek，大家可能更熟悉 R1 模型 —— 这款以低成本、高性能和开源特性颠覆行业的语言模型，而今天这篇文章介绍的 DeepSeek Janus Pro，通过创新的架构设计，在性能上超越了同领域的众多顶尖专用模型（Janus-Pro 7B 在图像理解和图像生成两方面都超越了 LLaVA、Dalle 3 和 SD XL 这样的主流选手）。对于图像生成任务，则在 LLM 上添加一个图像解码头，由其处理最终的隐藏状态（Hidden State，包含输入序列的语义信息）生成图像。

2025-03-10 09:48:05 951

原创后 DeepSeek R1 时代：从资本壁垒到技术普惠

相比两年前，当今开发者的模型推理成本已下降 100-200 倍，这种成本曲线陡降速度在云计算 15 年的发展史上都前所未见。但还有一种理论认为：任何优势都可能被竞争淘汰，真正重要的是行业能获得多少关注度 —— 如果你能每天登上所有新闻媒体的头条，当加入并从中分一杯羹的进入门槛足够低时，供应链中任何明显的利润空间都会被彻底榨干。我们今天为大家带来的文章，作者的核心观点是：以深度求索（DeepSeek）R1 模型为代表的高效推理技术，正在颠覆 AI 经济的底层规则，推动行业进入“轻量化革命”时代。

2025-03-05 10:14:04 790

原创绕过 RAG 实时检索瓶颈，缓存增强生成（CAG）如何助力性能突破？

这篇论文提出了一种高效的方法，可以在有限的内存和计算资源约束下，将基于 Transformer 的大语言模型（LLMs）扩展到处理无限长的输入。通过将海量外部知识嵌入模型的上下文窗口，CAG 能够生成信息丰富且上下文相关的回答，避免了传统检索增强生成（RAG）系统的检索延迟。这些策略为扩展测试时计算（test-time computation）提供了额外的灵活性（例如，通过增加检索的文档数量或生成步骤），从而增强 LLMs 获取和利用上下文信息的能力。这种方法消除了检索延迟，将检索错误的风险降至最低。

2025-02-28 10:42:43 905

原创从PPO到GRPO：算力减半的大模型推理能力训练革命

在训练过程中，强化表现好的输出（提高其概率），抑制表现差的输出（降低其概率），从而引导模型优化方向。在 PPO 算法中，传统价值模型的核心任务是评估生成内容的质量，或者说预测这些内容获得高奖励值（high reward）的可能性。由于我们现在训练的是语言模型，只需调整 temperature 参数即可生成多个候选回答，所有生成回答的平均奖励值即可作为衡量当前模型表现的良好信号，以及决定是否需要强化该行为。在这篇文章中，我们将深入探讨 GRPO 的细节，助您掌握这项推动大模型推理能力突破的关键技术。

2025-02-27 10:40:54 519

原创 LLM Agent 协作评估难？这 3 款评估监控工具来帮忙

在评估过程中，我通常觉得评估对话记录部分更有帮助，它能告诉我们各个 Agents 的具体行为，从而我们可以据此调整相应的提示词，并且还能帮助决定对话的轮数。简而言之，这就像将不同的任务分配给不同的人，并指导他们通过团队讨论来共同打造出一个完善的解决方案，类似于我们在头脑风暴会议中的做法。采用 Agentic 方法，基于上述情况，我们可以创建三个 Agent：一个是负责检索任务的检索器 Agent，一个是负责生成答案的答案生成器 Agent，以及一个负责对答案进行反馈的答案验证 Agent。

2025-02-21 16:18:38 855

原创如何正确看待 AI 的推理能力？走出人类中心主义

请记住，我们衡量认知能力的标准，与蒙骗那些被诱导相信自己在“与拥有灵魂的实体互动”的轻信者毫无关系 —— 这让人想起前谷歌工程师布莱克·勒莫因（Blake Lemoine）那听起来很玄但其实不对的观点，他曾以道德理由拒绝关闭一个“有意识”的 AI chatbot。”我猜各位读者能找出这句话的关键词，就是“真正的”。另外，还有人提出，“真正的推理”应该是在所谓的“思维链”（Chain of Thought，CoT）中进行的“多步骤思考（think in several steps）”。

2025-02-21 16:17:22 483

原创深度体验｜我用 Devin 写了一个月代码，真实体验令人意外

你可以实时在 web app 中观察它审查文件的过程和所做的代码修改（这一功能相当酷炫），一旦完成，它就会运行代码检查和代码测试（如果有的话），解决遇到的问题，并创建一个 PR（pull request）。尽管它有时会在通用最佳实践与特定代码库的特定规则之间犹豫，但它很快就能根据你的指导做出反应 —— 随着时间的推移，它会建立一个针对特定代码库的知识库，我们可以对其进行检查和编辑修改。在我们详细介绍对该产品的使用体验之前，我们想先声明，本文的任何负面观点，都不是为了贬低 Devin（或任何其他产品）。

2025-02-14 10:23:29 1002

原创图文详解：带你读懂 DeepSeek-R1 的核心原理

它之所以意义重大，并不是因为它是一个非常好用的 LLM，而在于在它的创建过程中，几乎无需依赖标注数据，仅通过大规模的强化学习，就能培育出一个擅长处理推理问题的模型。R1 使用的是该论文中的基础模型（并非最终的 DeepSeek-V3 模型），并且同样经历了 SFT（监督式微调）和偏好调优阶段，但它的独特之处在于这些阶段的具体操作方法。接着，这个未命名的推理专家模型的输出结果，可以用来训练一个更为多能的模型，它不仅能够处理推理任务，还能应对其他类型的任务，满足用户对大语言模型（LLM）的普遍期待。

2025-02-10 10:20:59 1599

原创为什么大语言模型难以处理长上下文？从 Transformer 到 Mamba

作者 | Timothy B. Lee编译 | 岳扬OpenAI 在两年前推出 ChatGPT 时，其能够处理的上下文信息仅有 8,192 个 tokens1。换言之，如果输入的文本超过大约 15 页，它就会“遗忘”最初的上下文内容。这一限制使得 ChatGPT 在处理任务时的规模和复杂度都受到了影响。而现今的 LLMs 能力有了显著提升：尽管如此，要想让 AI 系统达到人类水平的认知能力，我们还需要取得更多的进步。许多人展望未来，认为 AI 将能够承担大部分甚至全部的人类工作。然而，人类在工作生涯会阅读和

2025-02-08 10:41:56 768

原创 AI 发展是否正在放缓？AI 发展将驶向何方？

在 2024 年的 NeurIPS 会议上，Ilya 提到了合成数据的使用是未来的发展方向之一，这当然也是经常被视为持续扩展模型规模的一条路径。面对这些挑战，作者提出了几个潜在的突破方向：探索合成数据的应用、发展推理层面的扩展能力，以及构建更智能的 Agent 系统。在编程和数学领域，我们可以生成大量示例，并迅速验证哪些是正确的，从而创建一个较小的、更精细且高质量的数据集。我们今天为大家带来的这篇文章，作者的核心观点是：虽然传统的模型规模扩展策略正在遭遇瓶颈，但这可能正是 AI 发展模式转型的重要契机。

2025-01-26 10:15:37 693

原创你的LLM评估方法过时了吗？这三个范式转变不容错过

在二元分类任务中，精确率和召回率是对结果的无损度量（直接测量你所观察到的结果），而我提到的 LLM 任务的评估指标则是对输出文本的损失性度量（测量的是你所观察结果的简化版）。文章从作者在 Quora、Waymo 等公司的一线实践经验出发，提出了三个关键的评估范式转变：首先，评估工作应当从开发流程的配角转变为主角，因为 LLM 应用开发中可调整的参数相对有限，而输出的多样性却大大增加；基本的界面可能如下所示：结合之前提到的比较差异的基准测试，它提供了一个并排比较的面板，用户可以轻松浏览结果。

2025-01-26 10:06:35 901

原创文档解析技术指南：从传统Pipeline到端到端大模型

UB-PMC 包含真实的科学图表，而 Synth 则是生成的模拟图表。ChartDETR 等先进方法结合了 CNN 和 Transformer，实现了端到端的数据提取，而 FR-DETR 等模型则优化了流程图和树状图的结构提取，但处理复杂连接线的挑战依然存在。最初，这一领域依赖于基于规则的方法，但现在，深度学习技术的应用，如使用边界框和图像分割，极大地提升了检测的精确度和速度。但当遇到科学和专利文档时，基于学习的方法，如 Nougat 和 TATR，由于能够更好地处理复杂的布局和结构，因此表现更为出色。

2025-01-17 10:35:55 1334

原创向量数据库真的能满足所有 AI Agent 的记忆需求吗？

与此同时，它还在收集其他相关属性（例如，token 数量、产生模型响应的成本、系统状态、执行的任务/生成的响应），并创建一个 episode，然后将其存储在知识图谱中，其中底层过程存储在有限状态机（FSM）中。这些编码后的数据存储在向量数据库中，在推理阶段，可以基于向量相似度，使用相同的编码器模型来检索这些数据。在向量数据库领域，集合（collection）相当于 SQL 数据库中的表（table），每个集合项通常包含：唯一标识符（ID）、向量（实际数据，以浮点数数组形式存储）和元数据（例如，时间戳）。

2025-01-17 09:57:27 827

原创 RAG的技术困境：为何单纯依赖向量嵌入不可靠？

尽管 Nvidia 拥有丰富的资源，数据集的大小适中，答案也相对简短，但研究者们还是通过一种新的 RAG 方法，发送 48K 的文本片段并连同用户查询一起，打破了之前的最先进水平，实现了 47.25 的 F1 score（如果发送的内容更少，F1 score 会更低）基于同义词的搜索确实能够找到关键字搜索遗漏的产品，但这是有代价的。这意味着，当搜索关于“国王”的信息时，系统会优先展示关于“王后”的文本片段，而不是关于“统治者”的，尽管后者在内容上可能更为相关，而关于“王后”的信息则完全不相关。

2025-01-10 14:15:39 758

原创 2025 年 AI 与数据工程领域十大趋势前瞻

现实情况是，即使你拥有市场上最尖端的数据质量平台——最先进的 automations 技术，最优秀的 copilots 系统，最完美的集成（integrations），但如果不能迅速让企业运转起来，那么你所拥有的不过是预算表上的一个细列项目，以及桌面上一个新增的标签页而已。但小模型的优势不仅仅在于成本，它们也能提升性能。识别企业中存在的非结构化第一方数据，以及如何为利益相关者激活这些数据 —— 对于寻求展示数据平台商业价值的数据领导者来说，是一个全新的机遇（并希望在此过程中为优先计划争取到一些额外的预算）

2025-01-10 11:21:46 975

原创构建AI Agent必学的4种设计模式，一文了解

与“Planning”设计模式一样，我发现“Multi-Agent Collaboration”的输出质量很难预测，尤其是当智能体可以自由互动并且拥有多样的工具时。作者引用了 Andrew Ng 的观点，指出虽然后两种模式富有前景，但目前的不确定性较高，而 Reflection 和 Tool Use 模式则已经相对成熟可靠。Andrew Ng 的观点提示我们，目前来看，前两种模式更可能被现有的生产系统所采纳。当 LLMs 能够访问成百上千的工具时，它们的能力将得到极大的扩展。

2025-01-03 10:15:40 590

原创解锁AI潜力：AI在销售领域的应用案例(非Chatbot)

虽然开发这样的模型涉及许多复杂因素，但基本思路是，我们可以利用模型的预测结果为每名潜在客户分配一个等级（例如A、B、C、D），并使用这些等级来对 1 万名潜在客户进行分类和优先级排序。我们今天为大家分享的这篇文章，作者的观点是：企业应该将 AI 应用于解决具体的业务问题，而不是仅仅追随 AI Chatbot 的潮流。文本嵌入技术的价值在于，它能够将非结构化的文本信息转换成结构化的数字表格，这样的格式更便于采用传统的数据分析和计算方法。但问题在于，这些信息的质量不高，其中不乏非 IT 的 leaders。

2024-12-30 19:45:24 990

原创我从 2024 年的 LLM 应用开发实践中学到了什么？Part 1

在 LLM 原生开发中，衡量成功的标准通常是输出的质量，这意味着我们需要专注于生成精确且相关性高的结果，无论是聊天机器人的回答、文本摘要、图像生成，还是 LLM 定义的操作（Agentic 方法）。一个错误的决策，可能导致数月的努力付诸东流，更遑论昂贵的模型调用成本。本文作者凭借近十年的 Web 应用和云原生开发经验，以及 2024 年深度参与 LLM 应用开发的第一手经历，为我们揭示了一个重要发现：成功的 LLM 应用开发需要抛弃传统的产品开发思维，转而采用"持续研究-实验-评估"的创新模式。

2024-12-27 11:02:01 831

原创 Chatbot 不是“万金油”：企业级生成式 AI 如何真正创造价值

在流程中选择不同路径的决策，我们称之为“决策节点”。在传统的流程管理中，模板能够降低流程的可变性，确保流程的可复制性，并提升效率和质量（这一点在 Six Sigma（译者注：六西格玛(6σ)概念于 1986 年由摩托罗拉公司的比尔·史密斯提出，此概念属于品质管理范畴，西格玛(Σ,σ)是希腊字母，这是统计学里的一个单位，表示与平均值的标准偏差。例如，用户可以启动一个多步骤流程，该流程整合了各种模型和潜在的多模态输入，以产出更有效的结果，并将这些步骤与小型数据检索脚本相结合，后者在不依赖 AI 的情况下运行。

2024-12-27 10:15:10 902

原创解码通用 AI Agent：七步构建你的智能系统

对于构建 LLM Agent 来说，最关键的考虑因素是模型在核心任务上的表现，例如编程、调用工具和逻辑推理。可能还需要采用结构化生成技术[13]，这意味着会调整 LLM 的输出，使其符合特定的格式或架构，从而确保智能体的回复与我们所追求的沟通风格保持一致。对于我们正在构建的智能体，解析器必须能够辨认出我们在第二步中设定的通信结构，并将其转换成结构化数据输出，例如 JSON 格式。因为这是一个很好的工具，可以为我们的目标使用场景提供原型，并为设计我们自己的定制 Agent 架构奠定基础。

2024-12-23 10:36:33 697

原创机械鹦鹉与真正的智能：大语言模型推理能力的迷思

这就是所谓的“聪明的汉斯效应（The Clever Hans Effect）”，LLM 只是在进行猜测，而真正引导它的是处于环路中的人类，他们凭借对正确与错误解决方案的了解，无意中操控了 LLM 的输出 —— 即便他们并非有意为之。然而，后续的研究表明，大语言模型（Large Language Models，LLMs）中的涌现属性[12]可能是一种测量误差，因此，整个理论就与推理能力的突然出现3, 13有关了。因此，当人们提出大语言模型（LLMs）能够解决那些需要推理的任务时，这个观点引发了激烈的讨论。

2024-12-19 10:38:53 1167

原创为什么某些 batch size 会突然导致性能下降？

在强化学习（RL）研究领域，尤其是那些专注于持续学习问题（continual learning problems）的研究者，除非1）他们拥有一个非常大的神经网络，或者2）对整个技术栈进行了极致优化，否则在实验中使用 GPU 往往并不划算。使用多层感知机（MLP），浮点运算次数（FLOPS）大约是参数数量的两倍乘以 batch 中元素的数量[1]（即为 2 * m * n * b，数据批次大小（batch size）为 b ，矩阵为 m x n ）。我们可以看到在多种不同的模型架构中，都存在一个关键的阈值。

2024-12-16 14:49:03 785

原创 LLM 分布式训练六大关键技术介绍

编者按：本文聚焦于分布式去中心化神经网络训练技术，作者系统阐述了在大规模模型训练中提高硬件使用效率的创新方法。文章重点阐述了六种关键的分布式训练技术：数据并行训练：通过将数据 mini-batches 分散到多个 workers，实现并行梯度计算和高效训练。Butterfly All-Reduce：通过创新的数据分割和汇总方法，有效降低通信成本。Gossip-Based Averaging：去中心化的通信策略，提高系统的容错性和可扩展性。Moshpit Gradient Descent：允许

2024-12-13 10:34:14 730

原创 OpenAI o1 模型到来后，谈谈提示词工程的未来

举例来说，你不必逐一指导 —— “编写新品发布的电子邮件营销文案，接着起草社交媒体策略，并详细规划各阶段的时间表”，只需提出“为该产品制定一份详尽的上市计划”即可。提示词技术，尤其是那些你可能听过的“高级技巧[1]” —— 比如“提示词链（prompt chaining）”，“小样本学习（few-shot learning）”或“思维链（chain-of-thought）”技术，正受到关注。真正的价值不在于编写复杂提示词的能力，而在于明确你想要达成的目标。目前所需的高级提示词技巧只是暂时的。

2024-12-09 10:58:05 689

原创到底选谁？五大多智能体 ( Multi-AI Agent) 框架对比

本文作者通过对五大多智能体 AI 框架的比较，提出了一个关键观点：不同的 AI 框架适用于不同的场景和需求，选择的关键在于精准匹配项目特点和技术路线。OpenAI 最近发布了 Swarm，我得说，对于想要入门 Multi-AI agent 框架的新手来说，这可能是目前最易用的选择。最新亮相的是微软推出的 Magnetic-One（这是微软的第二个框架），其目标是对现有的 AutoGen 框架进行简化。但是，面对众多的 Multi-AI Agent 框架，如何做出选择确实是个难题。

2024-12-02 10:12:53 2609 1

原创长上下文语言模型评估体系探析

Anthropic 公司在其“Many-shot Jailbreaking”[23]项目中的研究发现，虽然仅凭几个样本无法突破模型的安全防线，但是如果有数百个样本，就能做到这一点——这一发现既展示了这种方法的威力，也揭示了其潜在的风险。对于大语言模型而言，能够有效地压缩长篇文档的内容是一项至关重要的能力，因为它可以让用户在不阅读全部内容的情况下，快速掌握大量文本中的关键信息。通过将这句不协调的句子（“针”）置于不同长度的文本片段（“海”）的各个层级，我们可以评估不同 LLMs 在寻找这些信息时的表现。

2024-11-29 10:16:35 1044

原创从 Llama 1 到 3.1：Llama 模型架构演进详解

本文将探讨 Llama 系列模型的架构演变，梳理了 Llama 模型从 1.0 到 3.1 的完整演进历程，深入剖析了每个版本的技术创新，还通过实际实验对比了 Llama 2 和 Llama 3 在推理速度、答案长度和相对答案质量（RAQ）等关键指标上的表现差异。目前，包括 Meta 的 Llama 在内的多数模型，都属于开放型 LLM，因为它们并未公开用于训练的数据集。Llama 3 在此基础上，将 GQA 应用于更小型的模型，采用了词汇表数量更大的高效分词器，将上下文长度翻倍，并大幅增加了训练数据量。

2024-11-25 10:34:58 1776

原创 AI像人一样操控电脑：多模态AI Agents和屏幕交互新范式

Anthropic 关于 computer use 技术的相关公告强调了 AI 不受限制访问用户屏幕的潜在风险，并提出了一系列降低风险措施，例如在专用的虚拟机或容器中运行 Claude，将互联网访问限制在允许的域名列表中，进行人工干预检查，并避免让模型接触敏感数据。在 OSWorld 基准测试[1]中，Claude取得了 14.9% 的成绩，虽然超过了同基准测试中的其他 AI 模型，但与人类 70–75% 的平均得分相比，仍有不小的差距。虽然这些工具展现出巨大的潜力，但与人类的表现相比仍有较大差距。

2024-11-20 10:09:07 713

原创「混合专家模型」可视化指南：A Visual Guide to MoE

混合专家模型（Mixture of Experts，MoE）的概念源自大语言模型（LLMs）的一个基本组件，也就是前馈神经网络（Feedforward Neural Network，FFNN）。在传统的 Transformer 中，FFNN 被称作密集模型（dense model），因为它的所有参数（包括权重和偏置项）都会被激活。在这份可视化指南里，我们将逐一剖析 MoE 的核心要素：专家网络（Experts）和路由器（Router），并展示它们在常见的大语言模型（LLM）架构中是如何发挥作用的。

2024-11-15 10:41:27 924

原创 LLMs 如何处理相互矛盾的指令？指令遵循优先级实验

语言模型是否应该将灵活性视为最重要的原则，并始终遵循最新的指令（即便该指令与之前的指令相矛盾），或者是否应该重视“从实践中学习”的原则，并与其所接收的少量“correct answers”示例保持一致（即使这些示例可能与 system message 或其他指令相冲突）。在 GPT-4o 模型中，更常见的情况是它会忽略提示词指令，转而遵循 few-shot examples（或者在个别情况下，模型会因为无法正确回应任何一条相互矛盾的指令而出错）。在文章的后续部分，我将展示一个将英语翻译成各种语言的实例。

2024-11-13 09:57:11 1031

原创 Agent 智能体开发框架选型指南

在 Workflows 中，智能体逻辑被封装在“步骤（steps）”中（与 LangGraph 中的“节点（nodes）”相对应），而事件（events）的发出和接收则负责在不同的步骤（steps）间传递信息。在这里，我还定义了一个额外的步骤——“prepare_agent”。选择一个智能体框架只是影响生成式人工智能系统在生产环境中表现众多决策中的一项，建立强大的安全保障和对大语言模型（LLM）的监控[4]是必要的 —— 同时，面对新智能体框架、研究成果和模型对传统技术的颠覆，我们还需保持灵活应对的态度。

2024-11-07 10:15:17 865

原创 Llama 3.2 Vision & Molmo：多模态开源生态系统基础

然而，在目前已经发布的模型中，进行这种直接比较的寥寥无几。文中介绍在多数视觉领域测试中， Molmo 表现更优，Llama 3.2 V 在 MMMU 等文本相关任务中表现更好，目前多模态模型的开源定义仍需进一步探讨和完善，但 Molmo 是目前最接近开源的视觉模型。Ai2 推出了基于 Qwen 2 72B 打造的 Molmo 72B，基于 Qwen 2 7B 的 Molmo-7B-D，即将问世的基于 OLMo 7B 版本的 Molmo-O，以及基于 OLMoE 并拥有 1B 活跃参数的 Molmo-E。

2024-11-01 10:22:18 1682

原创怎样在 10k 个 H100 GPU 上训练模型？

这可不是一件容易的事。在这样的大规模计算中，我们还必须调整交换机和网卡中的数据包路由算法，以实现有效的负载均衡。交换机也需要大量的 HBM 内存（不仅仅是 GPU 需要），因为当数据包排队等待时，需要在某个地方排队而不会被丢弃——这就是交换机级别的 HBM 内存。网络中可能包含多层交换机，并具备 RDMA 能力（可以直接将 GPU 内存中的数据复制到网卡，完全绕过 CPU 内存），同时拥有前端和后端网卡（前端网卡连接到如 NFS 之类的存储系统，后端网卡则将 GPU 连接到集群中的其他 GPU）。

2024-10-28 10:50:02 383

空空如也

空空如也