（initial）-优快云博客

原创第十章：生产环境中的 RAG：部署、监控与责任

本章讨论了将 RAG 系统部署到生产环境中的关键考虑因素，强调了构建稳定、高效、安全且负责任的知识增强型应用的重要性，为读者提供了实践性的指导方向。在生产环境中，RAG 系统需要具备高可用性、稳定性和可扩展性。采用服务化和解耦的架构是实现这些目标的关键。

2025-04-08 17:50:34 140

RAG 的核心思想是在生成文本的过程中，模型能够检索相关文档，并将这些信息融入到最终的输出中，从而提高生成内容的准确性、信息量和时效性。该方法强调了简单而有效的设计，可以灵活地调整检索到的子图大小，并在多个知识图谱问答基准测试中取得了优异的性能，证明了基于子图检索的 RAG 在处理结构化知识方面的有效性。针对多跳问题通常需要检索多个文档，导致输入 LLM 的文本长度过长的问题，BRIEF 通过将检索到的证据压缩成高密度的摘要，从而在不损失关键信息的情况下，提高了推理效率和性能。

2025-04-08 16:58:22 275

原创第七章：RAG 系统评估：量化效果，驱动优化

在前面的章节中，我们探讨了检索增强生成（RAG）系统的构建，从基础的向量检索到更复杂的知识图谱融合。然而，仅仅构建一个 RAG 系统是不够的。如同任何复杂的工程系统，我们需要一套科学的方法来衡量其表现，理解其优势与不足，并以此为依据进行持续的优化。本章将聚焦于 RAG 系统的评估，介绍评估的关键维度、核心指标、常用方法以及实用的自动化工具，最终目标是实现“量化效果，驱动优化”。评估一个 RAG 系统并非单一维度的事情，其效果是检索模块和生成模块协同作用的结果。

2025-04-07 13:21:46 530

原创第八章：RAG 优化进阶：评估驱动，持续提升

在前几章中，我们深入探讨了检索增强生成（RAG）系统的构建，并于第七章详细介绍了评估 RAG 系统性能的关键维度、核心指标和常用方法。本章将重点讨论如何利用第七章的评估结果，从检索、生成、知识管理、性能与成本等多个维度对 RAG 系统进行高级优化，实现持续改进，最终打造出更智能、更可靠的知识密集型应用。请记住，优化是一个持续迭代的过程，需要您不断地进行实验、评估和调整，才能达到最佳的效果。第七章的评估指标，如 Context Recall 和 Context Precision，直接反映了检索模块的性能。

2025-04-07 12:57:43 545

原创第六章：框架实战：构建集成向量与图谱的 RAG 应用

通过具体的代码案例和详细的步骤说明，您将能够掌握使用这些框架搭建强大的 RAG 系统的能力，并了解如何调试和评估其性能。最后，我们还介绍了一些常用的 RAG 应用调试和评估技巧，并提供了使用 spaCy 进行简单三元组提取以及使用 Ragas 进行 RAG 评估的示例。知识图谱以结构化的方式存储实体及其之间的关系，可以提供更丰富的上下文信息和进行关系推理，从而提高检索的准确性和相关性。希望本章的内容能够为您提供一个良好的起点，鼓励您继续探索不同的 RAG 策略和框架，并根据您的具体应用场景进行创新和优化。

2025-04-03 10:28:54 991

原创第五章：生成器（Generator）协同：基于增强上下文的应答

现代 LLM 虽然拥有强大的能力，但其能够处理的输入上下文长度通常是有限制的。在 RAG 系统中，检索器可能会召回大量的相关信息，超出 LLM 的上下文窗口。因此，有效地管理上下文长度至关重要。截断（Truncation）：简单地将检索到的上下文截断到 LLM 允许的最大长度。可以从头部截断（保留最近的信息）、从尾部截断（保留最开始的信息）或基于句子/段落进行截断。简单易实现，但可能会丢失关键信息，特别是如果重要的信息出现在被截断的部分。选择合适的截断策略（例如，保留包含关键词的段落）可以减轻信息丢失。

2025-04-03 09:33:41 1054

原创第四章：检索器（Retriever）设计：从向量到图谱

在检索增强生成（RAG）系统中，检索器的核心目标是高效且准确地从庞大的知识库中召回与用户查询最相关的知识片段。这些片段应当能够直接回答用户的问题，或者为后续的生成步骤提供必要的上下文信息。检索器的性能直接影响着整个 RAG 系统的效果，一个优秀的检索器能够显著提升生成答案的准确性、相关性和信息丰富度。

2025-04-02 17:06:38 921

原创第三章知识图谱赋能 RAG：构建结构化知识引擎

检索增强生成（RAG）技术通过检索外部知识来提升大型语言模型（LLM）的生成能力。本文深入探讨了构建 RAG 系统知识库的一种关键方法：利用结构化知识表示，特别是知识图谱。我们将介绍知识图谱的基础概念、构建方法、存储与查询技术，并讨论其在提升 RAG 系统精确性和关系理解能力方面的价值与挑战。本文旨在清晰阐述知识图谱如何作为 RAG 的强大引擎，提供更可靠、更具推理性的知识来源，并深入探讨其背后的技术原理、架构以及未来发展趋势。

2025-04-02 14:57:23 865

原创第二章：构建知识引擎：数据处理与向量化

在第一章中，我们了解了 RAG 的基本原理和价值，它通过检索外部知识来增强大型语言模型的能力。这个引擎的质量，直接决定了 RAG 系统能否找到准确、相关的“燃料”来驱动 LLM 生成高质量的答案。我们强调了数据质量的重要性，理解了切分策略的选择艺术，认识到 Embedding 模型需多维度考量，并明确了向量数据库在高效 ANN 搜索和元数据过滤中的核心价值。通过本章的学习和实践（即使是概念性的），您应该已经构建起一个能够存储和检索语义信息的“知识引擎心脏”。知识引擎的第一步是确定并获取所需的知识来源。

2025-04-01 10:40:50 892

原创第一章：RAG 入门 - 原理、价值与实践启示

因此，如何构建高质量的知识库和设计高效的检索策略，是 RAG 实践的核心挑战，也是我们后续章节将深入探讨的内容。接下来的章节，我们将深入 RAG 的内部，逐一解构其核心组件：从如何构建高质量的知识库（包括向量库和知识图谱），到设计先进的检索策略，再到与 LLM 的高效协同，以及如何评估和优化整个系统。简单来说，RAG 就像是给 LLM 配备了一个可以实时查询的、动态更新的“外部大脑”或“开放式笔记”，让它在回答问题或生成内容时，能够基于最新的、相关的、甚至私有的信息。RAG 的核心思想正是如此。

2025-03-31 15:03:59 1019

原创第九章：LLM 应用的广阔天地：机遇、挑战与前沿展望

现在，让我们将视角从推理的“引擎室”抬升，鸟瞰 LLM 在真实世界中开辟的广阔应用天地，审视其带来的巨大机遇、必须正视的严峻挑战（尤其是在模型应用和部署阶段显现的问题），并共同展望这项变革性技术激动人心未来的发展。它们的应用潜力几乎触及人类活动的方方面面，预示着一个更加智能、高效和便捷的未来。然而，通往这个未来的道路并非坦途。希望通过本专栏的学习，读者不仅掌握了 LLM 运行的核心技术，更能以审慎而积极的态度，拥抱 LLM 带来的机遇，在实践中积极应对挑战，共同参与构建一个负责任、可信赖的智能未来。

2025-03-31 09:06:24 919

原创第八章：LLM 推理的硬件加速与部署实践

从 GPU 的原理与应用，到针对国内情况的国产 GPU 分析，再到多卡与分布式推理的策略，以及云端和端侧的部署方案，我们详细了解了各种硬件平台的特点、优势与局限性，以及如何利用不同的推理框架和优化技术来提升 LLM 推理的效率和性能。面对日益增长的模型规模和用户需求，企业和开发者需要根据自身的具体情况，综合考虑性能、成本、可扩展性、以及对特定硬件或云平台生态的依赖等因素，做出明智的选择。例如，对于中等规模的 LLM，选择具有足够显存（例如 16GB 或以上）的 GPU 实例是必要的。

2025-03-28 18:37:28 1112

原创第七章：主流 LLM 推理框架详解与实战对比 (2025版)

这些框架各有侧重，通过不同的技术手段，例如优化计算图、融合计算内核、支持模型量化、管理 KV 缓存以及实现高效的批处理等，来提升 LLM 的推理效率。为了帮助读者更好地理解和选择适合自身需求的推理框架，本章将对当前主流的框架进行详细的分类和介绍，并通过实战对比，揭示它们在不同应用场景下的性能表现。在进行性能对比测试时，请务必保证测试环境的一致性（例如，相同的硬件、相同的操作系统、相同的模型版本），并进行多次测试取平均值，以获得更可靠的结果。让我们一起探索这些强大的推理利器，为您的 LLM 应用提速！

2025-03-28 16:48:26 1513

原创第六章：长文本推理的挑战与高级解决方案（原理与框架支持）

长文本推理是大型语言模型应用中的一个重要且具有挑战性的领域。本章介绍了内存瓶颈（主要是 KV 缓存）和计算瓶颈（主要是自注意力机制）以及针对这些瓶颈的高级解决方案，包括 PagedAttention、FlashAttention 和稀疏注意力机制。这些技术在不断发展，并且在主流的深度学习框架中得到了越来越多的支持。通过理解和应用这些技术，我们可以更好地利用 LLM 处理更长的文本序列，从而解锁更广泛的应用场景。

2025-03-27 14:03:42 870

原创第五章：模型优化：超越 KV 缓存的推理加速技巧与代码实践

本章介绍了超越 KV 缓存的多种模型优化技术，包括模型量化、剪枝、知识蒸馏以及算子融合与编译优化。这些技术各有特点和适用场景，可以单独或组合使用，以在模型大小、推理速度和精度之间达到最佳的平衡。掌握这些技术对于在资源受限的环境中部署和高效运行大型语言模型至关重要。

2025-03-27 11:47:01 697

原创第四章：LLM 推理中的解码策略：原理、代码实现与应用场景

本章深入探讨了 LLM 推理中各种常用的解码策略，从基础的贪婪解码到更高级的采样方法和 Beam Search，并加入了并行采样的介绍。通过理论介绍、代码实现和实际应用分析，读者将能够理解不同解码策略的原理、优缺点以及适用场景，从而在实际应用中选择最合适的策略来生成高质量的文本。

2025-03-25 13:40:22 807

原创第三章：KV 缓存：原理、框架实现与性能优化实战

本章我们深入探讨了 KV 缓存的原理、实现和优化策略. 通过了解 KV 缓存的工作方式，我们可以更好地理解现代 LLM 如何实现高效的推理. 掌握 KV 缓存的相关知识对于我们未来学习更高级的推理优化技术至关重要。

2025-03-25 10:47:13 1095

原创第二章：推理加速核心：预填充（Prefill）与解码（Decode）的深度解析与实现

动态 Batching 是一种提高 LLM 推理吞吐量的关键技术，尤其是在高并发的场景下。

2025-03-24 17:40:45 875

原创第一章：LLM 推理基石与实践准备

大型语言模型（Large Language Models, LLMs）推理（Inference）是指利用已经过大规模数据训练好的 LLM，针对给定的输入（通常称为 Prompt），生成符合预期或任务要求的输出的过程。简单来说，推理就是让训练好的模型“思考”并“回答”我们的问题或完成我们提出的任务。特征训练 (Training)推理 (Inference)目标学习数据中的模式和规律，调整模型参数，使其能够完成特定任务。利用已学习到的模型参数，根据输入生成输出。数据大规模的标注或无标注数据集。

2025-03-24 16:35:51 895

原创未来趋势展望：更大规模、更强智能、更可信赖的大模型

这与模型规模的扩大和更高效的架构设计密不可分。分布式训练技术的普及将加速超大规模模型的训练过程，而模型压缩与加速技术（如量化、剪枝、知识蒸馏）将降低模型的部署成本和延迟，使得 LLMs 能够在更广泛的设备上运行，例如在移动设备或边缘服务器上实现更强大的 AI 功能。最终目标是构建更接近人类的智能水平的 LLMs，使其在更广泛的任务上展现出通用智能的潜力，并探索与人类思维模式更接近的认知机制，例如学习抽象概念、进行类比推理、甚至展现出初步的常识理解，为人工通用智能 (AGI) 的初步探索与展望奠定基础。

2025-03-23 10:50:39 579

原创大模型的可解释性、可信赖性与伦理

大型语言模型（LLMs）正以前所未有的速度和规模渗透到我们生活的方方面面。从自然语言处理到内容创作，再到复杂的决策辅助，LLMs 的潜力令人瞩目。然而，随着其能力的增强，对其内部运作机制的理解（可解释性）、在各种情境下的可靠性（可信赖性）以及与人类价值观的对齐（伦理）成为了至关重要的议题。本章将深入探讨 LLMs 在可解释性、鲁棒性、公平性以及伦理与价值观对齐方面所面临的挑战，并介绍相关的技术和方法。同时，我们将融入哲学视角，以更深层次地理解这些技术和社会影响。

2025-03-23 10:44:14 590

原创终极AI梦想：当智能体拥有人类般的感知、行动与交流

它们不仅拥有强大的逻辑分析能力，更能自如地运用工具，在复杂环境中轻松导航，用自然的语言与我们对话，通过“眼睛”洞察世界，甚至理解我们的情感，进行心领神会的交流。随着大模型和多模态模型的持续发展，以及具身智能领域研究的不断深入，我们正在一步步接近那个曾经只存在于科幻小说中的梦想——创造出能够像人类一样感知、行动和交流的智能伙伴，它们将深刻地改变我们的生活和工作方式。的出现，正是为了弥补这一缺憾。它强调智能体需要拥有一个能够感知和作用于环境的“身体”——可以是真实的机器人，也可以是虚拟世界中的化身。

2025-03-22 09:00:00 438

原创当大模型有了“身体”：具身智能与Agent模型探索

具身智能的核心在于强调智能体并非孤立地存在，而是通过其“身体”（可以是物理的机器人，也可以是虚拟环境中的化身）与环境进行感知和交互。智能并非仅仅存在于模型的算法或参数之中，而是深深地根植于智能体与环境的动态关系之中。一个具身智能体通过在环境中执行动作，观察其结果，并根据反馈调整自身的行为，从而逐步学习和理解世界的规律。

2025-03-21 11:35:04 878

原创多模态大模型 (Multimodal LLMs) 前沿算法

多模态大模型是人工智能领域的研究前沿，其目标是构建能够理解和处理多种模态信息的通用智能系统。本章介绍了当前一些具有代表性的前沿算法，涵盖了图文、视频和音频等多模态场景。这些算法在模型架构、训练方法和融合策略等方面进行了创新，不断推动着多模态大模型的发展，并在自动驾驶、智能助理、内容推荐系统等领域展现出广阔的应用前景。随着研究的深入，我们有理由相信，未来将出现更多更强大的多模态大模型，进一步拓展人工智能的应用边界。

2025-03-21 09:00:00 808

原创衡量智能的尺度:大模型评估指标与方法 (Evaluation Metrics and Methods for LLMs)

本章介绍了评估大型语言模型的多种指标和方法，涵盖了自然语言生成和理解任务的常见自动化评估指标、人类评估方法、偏见与公平性评估以及安全性和鲁棒性评估。选择合适的评估方法和指标对于全面了解 LLMs 的性能至关重要，并且能够指导模型的进一步发展和应用。随着技术的不断进步，未来还将涌现出更多更有效的评估方法，以更好地衡量 LLMs 的能力和安全性。

2025-03-20 11:56:53 1077

原创智能模型的“智慧”提速：动态推理与条件计算

标准的 Transformer 层对所有输入都执行相同的 FFN 计算，而引入条件计算后，模型可以根据输入 token 的不同，动态地选择激活不同的 FFN 子网络（即 Experts）。例如，对于输入序列中的每个位置，模型可以根据其上下文信息，决定是否需要激活一个更复杂的 FFN 子网络，或者只需要一个更简单的计算路径。稀疏 MoE 模型的核心思想是将一个庞大的模型分解为多个小的、独立的子模型，称为“专家（Experts）”。每个专家都拥有独立的参数，并专注于学习不同的数据分布，从而提高模型的整体容量。

2025-03-20 11:04:59 806

原创解密大模型推理加速神器：深入理解 KV 缓存、预填充与解码

在 Transformer 模型的每一层中，自注意力机制通过计算输入序列中不同位置之间的相关性来捕获上下文信息 [3]。对于输入序列的每个 token，模型会生成三个向量：Query (Q)、Key (K) 和 Value (V)。注意力得分通过 Query 和所有 Key 的点积计算，然后通过 Softmax 函数进行归一化，得到每个 Key 对应的注意力权重。最终，每个 token 的注意力输出是 Value 向量的加权和。数学上，对于一个包含。

2025-03-19 18:15:12 969

原创大模型高效推理：解锁AI应用落地的关键

大型模型，例如在自然语言处理（NLP）、计算机视觉（CV）、推荐系统和生成式AI等领域取得显著进展的Transformer模型，已经成为现代人工智能的核心驱动力。这些模型拥有令人印象深刻的能力，能够理解复杂的模式并生成高质量的内容。然而，其巨大的参数规模和计算需求给实际应用带来了严峻的挑战，尤其是在推理阶段。高效的推理不仅关乎用户体验，确保低延迟的响应，也直接影响到资源成本，降低计算和存储需求，并使得在实时性要求高的场景（如对话机器人和实时翻译）中部署这些强大的模型成为可能。

2025-03-19 14:23:30 1067

原创大模型知识蒸馏：技术演进与未来展望

随着大模型的不断发展，知识蒸馏（Knowledge Distillation, KD）已经成为提高计算效率、降低部署成本的核心技术之一。相比标准的 KL 散度，R-KD 强调学生模型对自身高置信度区域的优化，从而在。通过模仿教师模型的推理步骤，使学生模型不仅学习最终结果，还学习推理过程。（R-KD）更注重高置信度区域，从而减少生成任务中的模式崩溃问题。过渡，新的思维链蒸馏、多模态蒸馏、逆向蒸馏等方法不断涌现。任务的快速发展，多模态蒸馏已成为大模型压缩的重要方向。对于一个推理任务，教师模型的思维链步骤为。

2025-03-18 22:32:03 889

原创知识蒸馏 (Knowledge Distillation) 算法

知识蒸馏是一种强大的模型优化技术，通过将高性能 Teacher 模型的知识迁移到更小的 Student 模型中，实现了模型压缩、加速和性能提升。基于 Logits、特征和对比学习的蒸馏是主流的蒸馏算法，它们各有特点，适用于不同的场景和需求。

2025-03-18 14:54:24 1053

原创模型剪枝算法：优化深度学习模型的有效途径

#近年来，深度学习模型在众多领域展现出卓越的性能，但随之而来的模型体积和计算成本的急剧增加，严重阻碍了其在资源受限环境中的部署。模型剪枝 (Model Pruning) 作为一种关键的模型压缩技术应运而生，旨在通过识别并移除模型中冗余或不重要的参数和结构，在维持模型性能的同时，显著降低模型的参数量、减少计算资源消耗并加速推理过程。模型剪枝不仅能够提升模型在移动设备、嵌入式系统等边缘端的部署效率，还能降低云端推理服务的成本。

2025-03-17 15:59:53 830

原创多任务学习与持续学习微调：深入探索大型语言模型的性能与适应性

多任务学习和持续学习是提升 LLM 微调性能和适应性的关键技术。多任务学习通过共享知识和并行学习多个相关任务来提高模型的泛化能力和效率。持续学习则通过各种策略来克服灾难性遗忘，使得 LLM 能够在不断学习新知识的过程中保持对先前知识的记忆，并适应动态变化的环境。随着 LLM 在实际应用中面临越来越复杂的场景和不断变化的需求，对这两种微调范式的深入研究和有效应用将是未来提升 LLM 智能水平的关键。

2025-03-17 11:51:32 773

原创 LLM 低比特训练后量化技术进展与 DeepSeek FP8 探索

承接我们之前对模型量化技术的探讨，本文将聚焦于近年来在大型语言模型 (LLMs) 低比特训练后量化 (PTQ) 方面取得的进展，并深入研究 DeepSeek 在 FP8 量化上的探索。随着大型语言模型 (LLMs) 在自然语言处理领域取得巨大成功，其庞大的参数规模带来了显著的计算和存储挑战，使得高效部署成为关键问题。低比特量化，尤其是将模型参数量化到 4 比特甚至更低的精度，是实现极致压缩和加速推理的有效手段。然而，传统的 PTQ 方法在应用于 LLMs 并进行低比特量化时，往往会导致不可接受的精度损失。

2025-03-15 09:00:00 843

原创模型量化 (Model Quantization) 算法 (Model Quantization Algorithms)

它通过在校准数据集上运行模型，收集激活值的浮点分布 ( P_{float}(x) )，然后尝试找到一组量化参数（缩放因子 ( s ) 和零点 ( z )），使得量化后的分布 ( P_{quant}(q) ) 映射回浮点空间后的分布 ( P’_{float}(x’) ) 与原始浮点分布之间的 KL 散度最小。在模型的计算图中，QAT 会在需要进行量化的层（例如，卷积层、全连接层）的权重和激活值路径上插入模拟量化的节点。这些节点负责在训练过程中执行伪量化操作，模拟真实部署时的量化和反量化过程。

2025-03-14 11:59:10 1264

原创大型语言模型与强化学习的融合：迈向通用人工智能的新范式——基于基础复现的实验平台构建

本文深入探讨了大型语言模型（LLM）与强化学习（RL）的融合，分析了LLM如何作为策略教师、奖励函数设计者和环境建模者，赋能RL智能体的学习，并阐述了这种融合对于迈向通用人工智能（AGI）的意义。基于对“Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents”论文的基础复现，我们构建了一个小型的开源实验平台，旨在为研究者和开发者提供便捷的工具，共同探索LLM与RL的更多可能性。

2025-03-14 09:57:45 521

原创大型语言模型与强化学习的融合：迈向通用人工智能的新范式

摘要：本文深入探讨了大型语言模型（LLM）与强化学习（RL）的融合，分析了LLM如何作为策略教师、奖励函数设计者和环境建模者，赋能RL智能体的学习，并阐述了这种融合对于迈向通用人工智能（AGI）的意义。我们回顾了相关研究进展，深入分析了LLM在RL中的作用机制，拓展了LLM与RL结合的应用场景，并探讨了这种融合的挑战与解决方案。最后，我们展望了LLM与RL融合的未来发展方向。

2025-03-13 18:10:36 428

原创基于人类反馈的强化学习微调 (RLHF) (Reinforcement Learning from Human Feedback (RLHF) Fine-tuning)

从 RLHF 的必要性、核心目标，到完整流程 (SFT 模型训练、奖励模型训练、强化学习训练) 和关键算法 (PPO)，再到 RLHF 面临的挑战和未来展望，我们对 RLHF 进行了全方位、深层次的剖析。RLHF 并非一蹴而就，而是一个精细的三阶段训练流程，每一步都环环相扣，共同构建了 RLHF 的完整技术体系，最终打造出更聪明的模型。KL 散度可以衡量两个概率分布的相似程度， KL 散度越大，说明新旧 Policy 差异越大，惩罚也越大。

2025-03-13 13:59:59 983

原创指令微调 (Instruction Tuning) 与 Prompt 工程

本章将深入探讨指令微调的核心思想、数据集构建、微调策略，以及 Prompt 工程的关键技术，并分析 Prompt Tuning 与 Instruction Tuning 之间的关系与区别。Prompt Engineering 的技术可以用于设计 Instruction Tuning 数据集中的指令，以及在 Instruction Tuning 训练过程中，设计用于引导模型生成高质量响应的 Prompt。，例如，混合使用人工标注数据和合成数据，或混合使用不同任务类型的指令数据。

2025-03-11 23:32:47 1066

原创高效微调算法 (Parameter-Efficient Fine-tuning, PEFT) 详解

通常情况下，只需要存储少量的微调参数 (例如，Adapter 模块参数，Prefix 参数，LoRA 适配器参数)，原始预训练模型参数保持冻结。全参数微调需要更新 PLMs 的所有参数，对于参数规模巨大的模型 (例如，数十亿、千亿参数)，微调过程需要消耗大量的计算资源 (GPU 算力) 和时间。例如，对于文本分类任务，可以将 Prompt 向量拼接在输入文本之前，引导模型预测文本的类别。，即模型在适应新任务的同时，会遗忘在预训练阶段学习到的通用知识，尤其是在下游任务数据量较小的情况下。

2025-03-11 23:07:06 1215

原创大规模分布式训练技术

本章我们深入探讨了大规模分布式训练技术，从必要性、数据并行、模型并行、混合并行，到高效训练框架、通信优化和显存优化，全面介绍了分布式训练的核心概念和关键技术。做完后，大家把答案 (梯度) 交给老师，老师汇总答案，给出最终答案 (同步梯度)，然后每个学生都根据最终答案修改自己的参考书 (更新模型)。例如，机器 1 负责计算模型的前几层，机器 2 负责计算中间几层，机器 3 负责计算最后几层。盖房子 (模型) 分成多个环节：打地基 (模型前几层)，砌墙 (模型中间层)，盖屋顶 (模型后几层)。

2025-03-09 21:01:15 1000

TA创建的收藏夹 TA关注的收藏夹

TA关注的人