大厂面试干货 | 阿里淘天大模型岗位面试真题全解析，收藏不亏！

原创于 2025-11-24 11:16:06 发布 · 588 阅读

CC 4.0 BY-SA版权

文章标签：

#面试 #职场和发展 #人工智能 #大模型 #Agent #大模型学习 #程序员

本文详细记录了阿里淘天大模型岗位面试真题及解答，涵盖大模型核心技术，包括测试时扩展、显存消耗、训练阶段、自适应推理、PPO/DPO算法、RAG系统、图RAG算法、Decoder-only架构优势、灾难性遗忘问题等。提供专业解答和代码示例，为准备大模型面试的开发者提供宝贵参考资料，是学习大模型技术的实用指南。

1. 测试时扩展（test-time scaling）是什么？怎么实现？

答：测试时扩展（也称测试时计算优化或推理时扩展）是一种在大型模型推理阶段动态分配额外计算资源（如 GPU）以提升输出质量的技术。

其核心思想是：不修改模型参数，仅通过优化推理过程（如多次采样、自我验证、延长思考步骤）来提高模型在复杂任务中的表现，尤其针对需要深度推理的场景（如数学、编程、逻辑分析）。

常见的实现方法包括：

多次采样（外部扩展）：对同一输入进行多次推理，取平均或投票结果。
自我验证（内部扩展）：在推理过程中，模型自身进行验证，并选择最佳的推理结果。
CoT（内部扩展）：模型在推理过程中，通过生成推理步骤，并使用这些步骤来生成推理结果。
延长思考步骤（内部扩展）：在 CoT 中加入特殊指令（如"Wait"）强制模型延长思考时间，纠正错误思路。

例如：模型尝试提前输出答案时，追加"Wait"标记使其继续推理，直至达到计算预算上限。

2. 基于 Transformer 架构的大模型在推理时显存主要消耗在哪些方面？

答：推理时显存主要消耗在如下三个方面。

模型参数：占用 2x 模型参数量 GB 的显存。

激活值：Transformer 模型在推理时需要存储每一层的激活值，通常占用 2 x 批大小 x 序列长度 x 层数 x 隐层维度 GB 的显存。
在这里插入图片描述

3. Deepseek-R1 训练的四个阶段？

DeepSeek-R1 的训练流程分为四个核心阶段，通过**两轮有监督微调（SFT）和两轮强化学习（RL）**的交替优化，逐步提升模型的推理能力、通用性及安全性。

第一阶段：冷启动监督微调（Cold Start SFT）

方法：使用数千条人工标注的高质量思维链（CoT）数据，包含多语言对齐的规范格式（如 <reasoning> 与 </reasoning> 标签）对基础模型（DeepSeek-V3-Base）进行轻量微调。

作用：激发模型遵循人类偏好输出逻辑连贯的推理过程为后续RL提供稳定起点，显著缩短收敛时间并提升可读性。

第二阶段：面向推理的强化学习（Reasoning-Oriented RL）

方法：混合奖励函数，包括规则奖励：答案正确性（如代码测试通过）、格式规范性，语言一致性奖励：惩罚中英文混杂，提升目标语言占比。

采用 GRPO 算法，训练至模型在推理任务上收敛（如 AIME 2024 准确率从 15.6% 提升到 71.0%）。

作用：专攻数学、编程、科学等复杂推理任务，优化多步逻辑严谨性。

第三阶段：拒绝采样与监督微调（Rejection Sampling & SFT）

方法：

推理数据：采用拒绝采样方法，从 RL 模型中生成响应，筛选高质量答案（约 60 万条推理数据）。
通用数据：复用 DeepSeek-V3 的 SFT 数据集（约 20 万条），覆盖写作、问答、角色扮演等任务。
两轮监督微调：第一轮仅使用 60 万条拒绝采样数据微调模型，第二轮用全部的 80 万条数据微调模型，平衡推理与非推理能力。

作用：扩展多领域能力，解决 RL 过拟合问题。

第四阶段：全场景强化学习（RL for All Scenarios）

方法：

多样化奖励机制：

推理任务：沿用规则奖励（如数学答案验证）。
通用任务（如对话、写作）：使用神经奖励模型评估"无害性"和"实用性"。

多提示分布训练：融合用户查询、长文本理解等场景，确保模型适应复杂需求。

目标：对齐人类偏好，提升安全性与开放域泛化能力，最终输出兼具推理严谨性与自然交互能力的DeepSeek-R1 模型。

4. 大模型自适应推理的方法都有哪些？分别展开说说

自适应推理都是通过大模型的后训练技术来实现的，代表方法如下：

Qwen3（阿里）：基本思想是让用户来控制模型是否进行思考以及思考的深度，而不是模型自适应决定。

基础模型：已经经过一轮 SFT + 一轮 RL 微调过的、具有推理能力的 Qwen3 模型。

训练方法：在 Qwen3 训练的第三阶段。

聊天模板：对聊天模板进行了改进，在用户输入之后引入特殊 token - /think 和 /no_think 来控制模型是否进行思考

有监督训练：混合推理模型自己生成的推理数据和人工收集的无推理数据，然后对推理模型做有监督微调。

AdaCoT（字节）：基本思想是平衡思考开销和模型性能，即建模帕累托多目标优化问题最大化模型的性能同时最小化 CoT 思考触发率。

基座模型：基础模型（仅预训练），豆包 1.5，15B/150B MoE 架构。

有监督训练：使用一个 15B 的模型标注哪些数据是复杂问题，构造为<think> reasoning_steps </think> answer 的形式，以及哪些数据是简单问题，构造为 <think> </think> answer 的形式，然后对模型做有监督训练（预热训练）。

无监督训练：

奖励函数：四方面评分加权求和，分别是回答质量分数，推理遗漏惩罚（0 或 -1），思考过度惩罚（0 或 -1），以及格式惩罚（0 或 -1）；
训练过程：使用 PPO 强化学习算法，计算损失时不计算<think> 之后第一个 token （决策 token）的损失，该方法叫做选择性损失掩模（Selective Loss Masking，SLM）

AdaptThink（清华）：基本思路也是训练模型根据问题的难度选择是否思考，实现的方法主要是约束优化和重要性采样。

其中约束优化是说模型在不做思考的情况下响应的质量不能比思考后响应的质量差，重要性采样是指因为参考模型是个推理大模型，他不可能不输出思考过程，因此对响应 y （输入为 x + <think>）的第一个 token，以 50% 的概率将其替换为 </think>。

基座模型：推理大模型，DeepSeek-R1-Distill-Qwen-1.5B 和 DeepSeek-R1-Distill-Qwen-7B。

在这里插入图片描述

5. PPO 和 DPO 的主要思想是什么，DPO 相比 PPO 的 RLHF 做了哪些改进？

答：PPO 算法的核心思想是在约束策略更新幅度的前提下最大化奖励，而 DPO 的核心思想是将强化学习转化为偏好分类问题。DPO 相比 PPO-RLHF 实现了四大改进：

训练流程简化（消除强化学习循环）：

PPO 需要四个模型：策略模型（Actor）、参考模型（Reference）、奖励模型（Reward Model）、价值网络（Critic，用于计算优势函数）。
DPO 只需要两个模型：策略模型和参考模型。

此外，DPO 将 PPO 的迭代采样->评分->参数更新简化为单阶段的有监督训练。

数据效率优化：PPO 的迭代训练需要将同批次数据复用 20~50 次，而 DPO 只需一次训练。

训练速度提升：同数据集、同硬件条件下，PPO-RLHF 的收敛速度是 DPO 的 ~10 倍，PPO-RLHF 的单步训练耗时是 DPO 的 ~4.5 倍，因此，DPO 的训练速度相比 PPO 提升 ~45 倍。

DeepSeek 提出的 GRPO 仅用 2 个模型（Actor + Reward），省去 Critic 和 Reference，显存降低 50%+。但其可行性依赖强基座模型（如 DeepSeek-V3），通用性仍需验证。

6. RAG 的基本流程是什么？

Naive RAG：四步，chunk -> index -> retrieval -> generation。

Advanced RAG：五步，chunk -> index -> retrieval -> re-rank -> generation。

Agentic RAG：Agentic RAG = RAG × AI Agent，通过动态代理协调 + 多跳推理 + 自我优化，将 RAG 从"静态工具"升级为"主动问题解决者"，成为处理开放域复杂任务的下一代范式。

7. 在检索增强生成（RAG）框架中为什么要引入重排序步骤，重排序的原理是什么？

答：在检索增强生成（RAG）框架中，重排序（Re-ranking）是关键的后处理步骤，用于优化初步检索结果的质量，从而提升大语言模型（LLM）生成答案的准确性和相关性。

作用：初步检索采样向量检索（如余弦相似度）或关键词匹配（如 BM25）检索语料库，仅关注文本表层特征，忽略了深层语义关联。

例如，查询"糖尿病治疗方案"可能匹配到提及"糖尿病"但内容无关的文档，因此初步检索返回的 Top-K 文档（如 Top-50）常包含低相关文本，直接输入LLM会导致生成答案偏离主题或包含错误信息。

重排序通过精细化排序，将真正相关的文档置于前列，使 LLM 优先使用高质量上下文，生成答案的准确率提升 20%~50%。

一种常见的做法为：先用快速检索（如 BM25）召回 100 篇文档，再用重排序精炼 Top-5。

原理：交互式语义建模（Cross-Encoder架构），将查询（Query）和文档（Document）拼接后输入 Transformer 模型，通过全注意力机制直接生成相关性分数。

公式表示：Score = Transformer([CLS] Query [SEP] Document [SEP])。

重排序模型能够捕捉 Query 和 Document 之间的多维度特征，包括语义相似度、上下文一致性、领域特征等。

主流重排序方法：

基于 PLM：如：BGE-Reranker、BERT-Reranker、ColBERT 等，利用预训练语言模型（PLM）对 Query 和 Document 进行编码，计算相似度分数。

基于 LLM：如：RankGPT、Zero-Shot Prompting 等，利用大语言模型的强大语义理解能力，通过零样本提示（Zero-Shot Prompting）直接对 Query 和 Document 进行相关性评分。

混合策略：结合传统检索方法（如 BM25）和深度学习模型（如 Cross-Encoder），先进行初步检索（召回 Top-100），再通过重排序模型优化结果（召回 Top-10）。

8. Embedding Model 和 ReRanker 的异同？

答：Embedding Model 和 ReRanker 在 RAG 框架中扮演不同的角色。

Embedding 快速找候选，Reranker 精准确定排名，二者协同构成 RAG 的黄金管道：Embedding 扩大搜索范围，Reranker 提炼核心信息，共同提升LLM生成质量。

在这里插入图片描述

典型应用场景：

在这里插入图片描述

9. 介绍你知道的图 RAG 算法？

答：我知道的图 RAG 算法主要有 LightRAG 和 GraphRAG。

（1）LightRAG

具体实现方式（步骤）如下：

分块（Chunk）+ 索引（Indexing）：将文本分割成小块，并构建出基于图的索引结构。

文本分割：将文档分割成小块。

实体、关系提取：利用 LLM 识别并提取每块文本中的实体（如名称、日期、地点、事件等）和它们之间的关系，形成知识图谱中的节点和边。

生成键值对：对每个实体节点和关系边，使用 LLM 配置文件函数生成文本键值对，其中键是单词或短语，用于高效检索，值是总结相关片段的文本段落，辅助文本生成。

图去重与优化：识别并合并来自不同文本段的相同实体和关系，减小图的大小，提高数据处理效率，得到最终的知识图谱。

检索（Retrieval）：双层检索。

查询关键词提取：对于给定查询 q，提取局部查询关键词和全局查询关键词。

关键词匹配：利用向量数据库匹配本地查询关键词与候选实体，全局查询关键词与链接到全局键的关系。

高阶相关性增强：收集检索到的图元素的邻接节点，以增强查询的高阶相关性，实现高效检索相关实体和关系，提高结果的全面性。

生成（Generation）：将检索到的信息（包括相关实体和关系的值等）和初始查询一起输入通用 LLM，生成与用户需求对齐的全面答案。

（2）GraphRAG

具体实现方式（步骤）如下：

分块（Chunk）：将源文档提取的文本按一定粒度分割成文本块，确定合适的块大小以平衡 LLM 调用次数和长文本上下文窗口的召回率。

索引（Indexing）：GraphRAG 的建立文本块索引的步骤比较复杂，包括图元素抽取、图元素摘要、图社区构建和图社区摘要等 4 个步骤。

图元素抽取：对于每个文本块，使用 LLM 识别并提取图节点和边的实例，包括实体的名称、类型、描述以及实体之间的关系等，并输出为带分隔符的元组列表。也可以根据需要提取与节点实例相关联的额外协变量。

图元素摘要：使用 LLM 对图中的元素实例进行总结，将每个图元素（实体节点、关系边和声明协变量）的实例级摘要转换为单块描述性文本，以消除重复节点并提高总结质量。

图社区构建：将元素摘要表示为同质无向加权图，使用 Leiden 算法等社区检测算法将图划分为节点之间连接更紧密的社区，得到不同层次的社区划分。

图社区摘要：为每个社区生成报告式的摘要。对于叶级社区，按优先级将元素摘要添加到 LLM 上下文窗口直至达到令牌限制；对于更高级别的社区，根据需要替换子社区摘要以适应上下文窗口。

检索（Retrieval）：

准备社区摘要：对于用户查询，随机打乱社区摘要并按预设令牌大小分成块，确保相关信息分散在不同的块中。

映射社区答案：并行生成每个块的中间答案，并让 LLM 生成一个表示答案对目标问题帮助程度的分数，过滤掉得分为 0 的答案。

生成（Generation）：将中间社区答案按帮助分数降序排列，并迭代添加到新的上下文窗口直至达到令牌限制，使用此最终上下文生成返回给用户的全局答案。

10. 你认为好的大模型提示词应该是什么样的？

答：好提示词的黄金公式 = 清晰角色 + 结构化任务 + 强约束 + 可验证。

角色：明确模型身份（如"编程助手"）
结构：使用 TAG(Task + Action + Goal) / COS(Context + Objective + Steps) 框架分步拆解，
约束：指定格式、长度、安全红线
验证：通过人工评审及指标量化效果

提示词优化工具：

在这里插入图片描述

11. 为什么现在 Decoder-only 成为大模型的主流架构，相比于 Encoder-Decoder 的架构好在哪里？

答：主要有三方面的原因，包括工程实现、计算效率、以及任务适配度。

（1）工程实现优势

Decoder-only 简化了 Transformer 的工程实现，仅需要实现 Masked Attention 机制，无需考虑无 Mask 的 Attention，以及 Cross-Attention 的复杂性。

（2）计算效率优势

节省参数：在同等深度（层数）设定下，并且假设超参数设置相同（如头数、隐层维数），Decoder-only 的参数量是 Encoder-Decoder 的一半。

节省算力：Encoder-Decoder 架构的 Encoder 部分采用无掩模的注意力机制，只有 Decoder 部分采用 Masked Attention，Masked Attention 计算量是无掩模 Attention 的一半。

推理加速：在推理阶段，Decoder-only 可以利用 KV-Cache 复用机制，显著降低多轮对话的延迟，而 Encoder-Decoder 则需要重新计算编码器输出，缓存效率较低（这个问题在多轮对话场景中尤为突出）。

在这里插入图片描述

（3）任务适配度优势

CLM （因果语言建模）预训练目标在文本生成方面的先进性，已经被广泛证明，Decoder-only 天然适配 CLM，并且进一步方便了 Prompting、In-Context Learning 的实现。

特别说明：实验证明，在语言建模类任务（文本生成、故事创作、代码补全）中，Decoder-only 的困惑度（PPL）显著低于 Encoder-Decoder。

而类似 T5 这样 Encoder-Decoder 架构的 Transformer 在各种 Seq2Seq 任务（如机器翻译、文本摘要、代码生成等）中表现优秀。

虽在翻译任务表现优异，但因参数量翻倍（11B T5≈5.5B GPT），公平比较下无优势。

12. Decoder-only 架构的注意力矩阵为什么是满秩的？满秩注意力矩阵有什么优势？

答：Decoder-only 架构的核心是因果注意力（Causal Attention），其注意力矩阵是严格的下三角矩阵，因为三角矩阵的行列式 = 对角线元素之积，又 Softmax 保证了注意力矩阵中所有元素均为正，因此对角线元素也均为正 -> 行列式恒为正 -> 矩阵满秩。

满秩注意力矩阵的优势包括：

完全的位置关系建模：满秩矩阵的行/列向量线性无关，能精确表示序列中任意位置的依赖关系。
更大的模型容量：注意力矩阵中没有冗余参数（因为行/列向量线性无关，彼此无法线性表示），能够更好地利用参数空间，提升模型的表达能力。
工程实践优势：相比与 Encoder-Decoder 模型，Decoder-only 的泛化能力更强（GPT 的 Zero-shot 能力强于 T5），微调时收敛更快。

13. 大模型的灾难性遗忘问题是什么？怎么解決？

释义：大模型的灾难性遗忘（Catastrophic Forgetting）是指模型在适应新任务或新数据时，对先前学到的知识出现大面积遗忘，导致其在旧任务上的性能急剧下降的现象，宏观表现为大模型微调后"变傻了"。

原因：造成灾难性遗忘的根本原因是由于在训练（微调）过程中反向传播优化新任务损失时，全局权重更新会破坏旧任务对应的参数模式

解决方案至少有四种：

参数（结构）隔离法：为不同任务分配独立参数路径，避免共享参数的冲突更新。代表方法：Adapter/LoRA 模块化扩展，冻结原模型参数，插入轻量级可训练模块（如 AdapterLoRA），仅更新新增参数。

数据回放法：混合新旧任务数据训练，强制模型同时记忆历史与当前知识。真实数据回放：存储少量旧任务典型样本（1%~5%），与新数据混合训练；合成数据回放：用大模型自身生成旧任务的合成数据替代真实数据。

正则化：约束参数更新幅度，保护重要权重不被覆盖。弹性权重巩固（Elastic Weight Consolidation，EWC）：计算参数重要性（Fisher 信息矩阵），损失函数中惩罚重要参数的大幅度更新。

自我蒸馏（Self-Distillation，SDFT）：让微调后的模型模仿初始模型的输出分布，缩小知识差距。训练新任务时，使用旧任务的教师模型输出作为软标签，指导新模型学习。

工业实践推荐-优先 LoRA + 合成回放（如金融报告生成系统） - 高安全场景用 SDFT 蒸馏（如医疗诊断模型） - 动态任务扩展选 Adapter 路由（如多语言翻译引擎）。

14. 大模型生成内容的方法都有哪些？它们的区别是什么？

答：常用的文本生成策略包括 Top-p、Top-k、集束搜索（Beam Search）和贪婪解码（Greedy Decoding）四种。

在这里插入图片描述

15. 造成大模型复读机问题的原因是什么？怎么解决复读机问题？

简答版本：复读机问题是 LLM 统计学习本质的映射，当前工业界通过 "数据清洗 -> 解码调参 -> 后处理"三级流水线可有效缓解（参考阿里云、DeepSeek）。

以下是详细版本

答：造成大模型"复读机"问题的原因主要有三个方面。

数据质量方面：简而言之就是训练数据中包含大量重复的模式。

比如：

用语重复性：互联网训练数据中高频出现重复短语（如新闻标题套路、社交媒体热词），模型过度拟合这些模式。
多样性缺失：垂直领域数据不足时（如电商标题），模型只能复现有限表达。

解码策略的局限性：

搜索策略：贪婪解码与集束搜索会优先选择概率最高的词，抑制低概率但合理的选项，加剧重复。
采样策略：温度（Temperature）设置过低，低温会强化高频词概率分布，抑制多样性。

注意力机制缺陷：

上下文窗口限制：模型无法追踪长距离依赖（如 >2048 tokens），遗忘前文内容导致重复生成相似段落。
诱导头（Induction Heads）现象：模型倾向于从已生成文本中复制局部模式（如"连续三个形容词"结构）。

训练目标的局限性：

Next-Token Prediction 任务：追求局部最优（token 级别的生成）而非全局最优（完整句子的一致性），生成保守文本。
缺乏显式多样性约束：传统的有监督训练损失函数（交叉熵）未惩罚重复行为。

根据上述分析，解决"复读机"问题的方法也主要可以从四个方面考虑：

数据清洗与增强：删除重复语料，加入多语言、多风格数据。

解码策略调参：

Top-p 采样：优先选用Top-p 采样方法，动态选择累积概率≥p的最小词集，避免固定 k 值的僵化。
温度调节：高温增强多样性，低温保连贯性，因此可以适当提高温度（如 0.7~1.0），增加低概率词的采样机会。
重复惩罚：降低已出现词的 logit 分值，强制模型转向新词。

架构与推理升级：扩展位置编码（如RoPE）、窗口注意力（Sliding Window）突破长度限制。

训练技术创新：

损失函数改进可选择：

Unlikelihood Training：对重复 n-gram 施加负向损失，主动抑制复制行为。
对比学习（Contrastive Loss）：拉大正负样本距离，避免输出坍缩。

**参数高效微调：**LoRA/P-Tuning：冻结主干参数，仅微调适配器，保留通用性并注入领域多样性。

*. 后处理与人工干预。

实时去重算法：检测删除连续重复n-gram（如no_repeat_ngram_size=3）。

置信度加权评分：对关键术语（如医学术语）赋予高权重，降低通用短语重要性。

人工反馈强化学习（RHLF）：标注员对非重复文本奖励，微调模型偏好。

场景化解决方案推荐：

在这里插入图片描述

16. 对比 Deepspeed 和 Megatron 的区别？

答：Deepspeed 和 Megatron 的差异主要体现在并行策略优化、硬件适配性和功能定位等方面。

并行策略优化：

Deepspeed：主要对****数据并行进行优化，在各个 GPU 之间共享模型切片、梯度、优化器参数。
Megatron：主要针对****模型并行进行优化（包括张量并行和流水线并行），支持大规模模型的切分和分布式训练。

硬件适配性：

Deepspeed：支持多种硬件平台（如 CPU 和 GPU），并且可以将优化器状态卸载到 CPU 上，适合资源受限的环境。
Megatron：深度优化 NVIDIA GPU，特别是 Tensor Core 加速，依赖 NCCL 通信库，主要在高性能计算集群（如 DGX/A100）上表现优异。

功能定位：

Deepspeed：着眼于****降低显存占用，从而赋能资源受限场景中的大规模模型训练，适用于资源受限的场景。
Megatron：着眼于****硬件（GPU）性能压榨，从而加速模型训练，适用于硬件资源充足的场景，进一步提升训练效率。

实际上，Megatron 才是在加速模型的训练过程，而 Deepspeed 更多是降低硬件资源的占用。

Megatron 才应该叫 Deepspeed，Deepspeed 应该叫 Efficient-Memory！

两者可以结合使用，Deepspeed 可以在 Megatron 的基础上进一步优化资源使用。

17. [！重点] 目前有一些专业领域知识，比如医疗知识或者法律条文，准备做一个智能助手，要让你搭建一个 RAG 链路，你会怎么做？

答：我会分为 5 大核心模块实现全链路设计方案。

（1）知识库构建（Data Foundation）

数据来源：

医疗：临床指南（如UpToDate）、药典、医学期刊（PubMed）、电子病历脱敏数据
法律：法律法规库、司法解释、判例文书、合同范本

嵌入模型选型：

通用场景：text-embedding-3-large
领域优化：微调BAAI/bge-large-zh（法律/医疗语料）

存储方案：

向量数据库：Pinecone（高并发）或 Milvus（开源）
结构化元数据：Elasticsearch（支持法条编号、发布日期等字段过滤）

（2）查询理解模块（Query Understanding）

意图识别：

医疗：分类器识别咨询类型（诊断/用药/预后）
法务：分类器识别法律条款类型（合同/法律/Policy）

查询改写：首先建立标准术语表，然后 prompting LLM 对查询进行改写。

如：

法律场景扩展缩写：“民法典第 584 条” -> “《中华人民共和国民法典》第五百八十四条”
医疗术语标准化：“心梗” -> “心肌梗死”

（3）混合检索系统（Hybrid Retrieval）

在这里插入图片描述

（4）证据增强生成（Evidence-Augmented Generation）

提示词工程关键结构：

[系统指令] 你是一名专业律师，基于以下法律条文解答问题：
<检索到的法律条文1>...
<相关判例2>...
[用户问题]：{query}
[输出要求]：
1. 引用条文编号
2. 如涉及免责条款必须明确提示风险

生成模型选型：

通用：GPT-4-turbo（128K上下文）
领域微调：Llama 3 + 法律文书微调（LoRA）

（5）安全与合规层（Safety & Compliance）

事实性校验：

医疗：通过 UMLS（统一医学语言系统）校验术语一致性
法律：条文时效性检查（对比发布日期与生效日期）

风险拦截：生成响应的后处理

def risk_detection(text):
# 法律：识别未授权法律建议
if ("建议起诉" in text) and (not cite_law_article(text)):
return "根据平台规则，此问题需咨询执业律师"
# 医疗：拦截未经验证的疗法
if ("推荐使用" in text) and (not has_clinical_trial_evidence(text)):
return "该疗法尚未获得循证医学支持，请咨询医生"

溯源展示： 输出时附带知识片段来源（如：《民法典》第XXX条，2023 年修订版）。

（6）其他

隐私性：如患者隐私保护，在知识库预处理中自动删除病历中的姓名/身份证号（NER 模型+正则）。

评估与迭代：

在这里插入图片描述

迭代策略：

错误案例分析：构建误检样本回流系统
持续训练：每月用新数据微调检索/生成模型

代码：23.合并 K 个升序链表

import heapq
from typing import List
# 定义链表节点
class ListNode:
def __init__(self, val=0, next=None):
self.val = val
self.next = next
# 定义小于比较逻辑（用于堆）
def __lt__(self, other):
return self.val < other.val
class Solution:
def mergeKLists(self, lists: List[ListNode]) -> ListNode:
if not lists:
return None
# 初始化堆
heap = []
for l in lists:
if l:
heapq.heappush(heap, l)
# 创建哑节点
dummy = ListNode(0)
current = dummy
# 处理堆
while heap:
node = heapq.heappop(heap)
current.next = node
current = current.next
if node.next:
heapq.heappush(heap, node.next)
return dummy.next

代码：1143. 最长公共子序列

动规经典题目，直接秒：

def longestCommonSubsequence(text1: str, text2: str) -> int:
m, n = len(text1), len(text2)
dp = [[0] * (n + 1) for _ in range(m + 1)]
for i in range(1, m + 1):
for j in range(1, n + 1):
if text1[i - 1] == text2[j - 1]:
dp[i][j] = dp[i - 1][j - 1] + 1
else:
dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])
return dp[m][n]

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】