sjr2001-优快云博客

原创 MCP、Agent、Function call

而不是仅仅用文本来回答。例如，你问：“今天北京天气怎么样？”模型不会编造答案，而是会执行一个预设的。

2025-10-11 08:51:01 657

原创 Prompt-tuning、Prefix-tuning、P-tuning/v2

在Prompt-tunning的基础上，embeding之后加入一个MLP层，在编码器部分加上一个Past_KV。这些保存下来的Key和Value是来自“过去”的，用于与“当前”的Query计算注意力。：它指的是在自回归生成过程中，为之前所有时间步（tokens）计算并保存下来的。在Prompt-tunning的基础上，在编码器部分加上一个Past_KV。这是一个非常好的问题，它触及了同一个概念在不同语境下的术语使用。（在代码中通常是一个张量元组或一个特定的缓存对象）。我们可以把它们看作是。

2025-10-10 20:59:30 400

原创测试面试题

UDP 是无连接的协议，不保证数据可靠性，传输速度快，常用于视频、语音、DNS 场景。验收测试：由用户或客户等相关人员根据需求规格说明书和测试计划对系统进行测试，分为a测试和B测试，a测试指的是由用户、测试人员、开发人员等共同参与的内部测试，而B测试指的是内测后的公测，即完全交给最终用户测试。B/S 架构是一种基于浏览器和服务器的架构，也称 web 架构，基于 http 协议的网络架构，用户通过浏览器向服务器发送请求，服务器对请求进行处理，并返回给浏览器，浏览器再将结果呈现给用户。

2025-09-24 16:29:29 416

原创 DPO的原理

DPO 通过优化偏好信号代替直接的奖励信号进行学习，其关键步骤包括偏好建模、损失函数优化、策略优化。

2025-09-23 16:41:42 257

原创解释下强化学习

主流的强化学习方法可以划分为免模型学习和有模型学习两类。免模型学习通过直接优化策略或值函数来最大化累积奖励，代表方法有 A3C、PPO、DQN 和其改进算法；有模型学习通过构建环境模型来进行长远规划，代表方法有 MPC 和 Expert Iteration。每种方法在不同的应⽤场景中有其独特的优势和局限性。4、强化学习中策略函数和值函数是什么在强化学习中，策略函数和值函数是两个核心的概念，它们分别用于描述智能体如何选择动作以及这些动作的长期回报。

2025-09-23 16:15:19 341

原创数字推理笔记——基础数列

例2 2，8，9，10，12，14，（）例3 13，17，19，23，29，（）数列的项：数列中的每个数称为数列的项，其中第。例7 243，162，108，72，48，（）例1 1，5，9，（），17，21。数列：按一定次序排列的一列数叫做数列。例6 3，5，8，11，16，19，（）例4 3，4，6，8，（），14。例5 31，29，23，（），17。等差 4 答案：13。质数列＋1 答案：12。倒序质数列答案：19。质数列答案：31。

2025-09-19 16:34:15 282

原创什么是冷启动？为什么要冷启动？

在大型语言模型（LLM）的训练中，冷启动（Cold Start）指在应用强化学习（RL）之前，先对模型进行⼀轮监督微调（SFT）。这⼀过程涉及收集⼀小部分高质量的推理链（Chain-of-Thought, CoT）数据，对基础模型进行微调，为后续的强化学习奠定基础。通过冷启动阶段的监督微调，模型能够学习到更清晰、结构化的输出格式，增强用户体验。冷启动通过提供初始的监督信号，使模型在进入强化学习阶段时具备基本的推理能力，促进训练的稳定性和效率。有效地提升推理能力和输出质量。2、为什么要冷启动？

2025-09-09 10:14:40 514

原创从huggingface下载模型时有哪些文件？

许可证和git文档相关。许可证和git文档相关。

2025-09-08 16:44:50 275

原创 Qwen2有那些提升

GQA，即分组查询注意力机制，是⼀种改进的注意力机制。它将注意力计算中的查询（Query）部分进行分组，从而减少计算量。显存占用降低：降低显存需求，使得在同等硬件条件下，可以运行更大的模型或处理更长的序列。上下文长度（Context Length）指模型在⼀次推理中能够处理的最大文本长度。支持长文本处理：更长的上下文长度可以处理更长的输入，例如长文档、代码文件等。提高模型的连贯性：在长对话中，模型可以更好地保持上下文，生成更相关的回复。推理加速：通过减少计算复杂度，加快模型的推理速度。

2025-09-08 11:34:19 284

原创 Qwen通义千问的结构

分词与编码：采⽤字节对编码（Byte Pair Encoding，BPE）方法，将输入文本进行分词和编码。为了增强多语言能力，Qwen的词汇表增加了常用的中文字符和其他语言的词汇，词汇表大小。线性变换和Softmax层：将Transformer块的输出转换为词汇表中每个词的概率分布，⽤于预测下⼀个词。词嵌入（Word Embedding）：将每个词或子词的索引映射为稠密的向量表示，捕捉词语的语义信息。，将位置信息融入模型中。RoPE通过在输⼊中加⼊位置信息，使模型能够识别序列中词语的位置。

2025-09-05 11:37:18 200

原创什么是MOE（混合专家模型）

1、MoE的核心架构MoE，全称为Mixture of Experts（混合专家模型），是⼀种大模型架构，其核新设计思想是“术业有专攻”，即将任务分⻔别类，分配给多个“专家”来解决。与MoE相对应的是稠密（Dense）模型，后者是⼀个“通才”模型，能够处理多种任务，⽽MoE模型则专注于“分而治之”，让每个专家模型解决它最擅⻓的部分。两图对⽐可以看到，与传统⼤模型架构相⽐，MoE架构在数据流转过程中集成了⼀个专家⽹络层（红框部分）。1、MoE的核心架构。

2025-09-05 10:53:30 422

原创 SFT后会出现哪些问题（5个）

1、过拟合（Overfitting）过拟合，灾难性遗忘，模型偏差增加，鲁棒性降低，泛化能力减弱1、过拟合（Overfitting）过拟合是指模型在训练数据上表现良好，但在新数据（测试集或实际应⽤中）上性能较差。1.1 根源分析数据规模有限：微调数据集通常比预训练数据集小很多。模型复杂度高：⼤型模型具有大量参数，容易记住训练数据的细节。缺乏正则化：如果在微调过程中没有适当的正则化措施，模型可能过度拟合训练数据。

2025-09-05 09:36:03 795

原创预训练和微调任务有什么区别，两者的目的

预训练是指在⼤规模的上训练模型，使其学习通⽤的特征表⽰。这⼀阶段不针对特定任务，⽽是让模型掌握数据的基本结构和模式。

2025-09-04 09:37:55 317

原创 transformer的激活函数

平滑性： GELU是一个平滑的函数，具有连续的导数，没有梯度截断的问题，有助于梯度的稳定传播。高斯分布： GELU激活函数的输出在输入接近于 0 时接近于高斯分布，这有助于提高神经网络的泛化能力，使得模型更容易适应不同的数据分布。计算资源效率： GELU激活函数的计算相对复杂，涉及到指数、平方根和双曲正切等运算，因此在计算资源有限的情况下可能会带来较大的计算开销。的激活函数，相较于 ReLU 等激活函数，GELU 更加平滑，有助于提高训练过程的收敛速度和性能。例如Bert用的是GELU。

2025-09-03 11:17:49 325

原创介绍⼀下Llama的结构

综上，LLaMA模型通过引⼊RMS Pre-Norm规范化技术、SwiGLU激活函数和RoPE位置编码等创新点，有效地优化了Transformer结构，提升了模型在⾃然语⾔处理任务上的性能和效率。这些精⼼设计的改进使得LLaMA成为⼀个在多种应⽤场景下都具有竞争⼒的语⾔模型。传统的Layer Norm依赖于对输⼊进⾏均值和标准差的标准化，⽽RMSNorm简化了这⼀过程，只进⾏标准化。这种规范化⽅式有助于模型的梯度平滑传播，特别是在深度⽹络中，RMSNorm有助于稳定训练过程，减少梯度消失或爆炸的⻛险。

2025-08-29 13:26:58 244

原创为什么大模型用GQA(Group Query Attention)

要先讲解与其相关的两种注意⼒机制：MHA（Multi-Head Attention）和MQA（Multi-Query。平衡，特别是在内存带宽和推理速度成为瓶颈的情况下。要详细理解为什么⼤模型使⽤GQA，我们需。现在⼤模型⼴泛使⽤GQA（Grouped-Query Attention）是为了在。和模型性能之间取得更好的。

2025-08-29 13:20:17 139

原创 SwiGLU激活函数的原理

SwiGLU激活函数作为LLaMA模型的改进之⼀，通过将GLU中的Sigmoid替换为Swish，使得模型在复杂任务中的表现得到了显著提升。其平滑的激活特性、灵活的⾮线性响应以及⻔控机制共同作⽤，提升了模型的表达能⼒和计算效率。

2025-08-29 12:57:57 363

原创 Bert学习笔记

WordPiece（子词分词方法）+ 绝对位置编码 +BERT 使⽤ WordPiece 作为分词⽅法，将单词划分为⼦词单元。这种处理⽅式既能处理未知词汇，⼜能提⾼模型的灵活性和泛化能⼒。例如，罕⻅或不规则单词会被分成更常⻅的⼦词单位，进⽽能够在训练中更好地学习到词汇语义。位置嵌⼊ (Position Embedding)：由于 BERT 只使⽤ Transformer 的编码器部分，并不依赖于序列化结构（如 RNN 或 LSTM），因此它⽆法从输⼊序列中⾃然地获取位置信息。为了弥补这⼀点，

2025-08-29 12:37:40 462

原创 RMSNorm

RMSNorm 则不涉及均值和⽅差的计算，⽽是通过均⽅根（Root Mean Square, RMS）来进⾏规范化。其核⼼思想是基于输⼊的幅值（magnitude），⽽不依赖于其均值。

2025-08-29 11:20:26 296

原创位置编码方式——RoPE

RoFormer通过引⼊RoPE，为Transformer提供了⼀种相对位置编码的⽅案，保留了绝对位置编码的简单性，同时增强了⻓序列任务的处理能⼒。RoPE设计的旋转变换具有理论上的优雅性和实践上的⾼效性，并且能推⼴到线性Attention中，是⽬前唯⼀适⽤于该场景的相对位置编码⽅案。5、旋转位置编码为什么⽐绝对位置编码更好。

2025-08-28 17:00:47 689

原创 Tokenizer训练方式和常见的分词模型

BPE 和 BBPE 通过将词分割成⼦词的⽅式来平衡词汇表的⼤⼩与语⾔建模的泛化能⼒。BPE适合处理较为常规的语⾔任务，⽽BBPE适合多语⾔和字符集复杂的场景。

2025-08-28 15:38:04 942

原创 Transformer在哪⾥做了权重共享？

在机器翻译任务中，源语⾔和⽬标语⾔虽然不同，但它们可以共⽤⼀个⼤型的词表，尤其是考虑到⼀些词汇如数字、标点符号等在多种语⾔中是通⽤的。在Transformer中，位置编码通常是通过学习的固定向量来实现的，这些向量与输⼊的词嵌⼊相加以表⽰单词在序列中的位置信息。在编码器和解码器中，可以共享相同的位置编码矩阵，这样不同位置的输⼊在不同层之间可以有相同的表⽰。这意味着在⽣成词汇的概率分布时，使⽤的嵌⼊矩阵和线性层是相同的。在解码器的⾃注意⼒层中，可能会采⽤权重共享策略，即使⽤相同的查询、键和值的权重矩阵。

2025-08-28 14:18:05 400

原创为什么在attention中要进行scaled（为什么要除根号下dk）

2025-08-28 09:37:40 108

原创 Transformer为何让Q（查询）和K（键）使⽤独立的权重矩阵进行计算，为什么需要 Q、K、V（查询、键、值）三个矩阵？

如果 Q 和 K 共⽤同⼀矩阵，查询和响应的表达方式会高度相似，⽆法有效捕捉不同的关系信息，影响注意⼒机制的灵活性和表达能力。K 提供匹配标准，V 提供信息内容：Q 通过与 K 的点积计算得到各个词之间的相关性，但仅依赖 K 是无法得到最终的上下⽂信息的。通过计算 Q 和 K 的点积，模型可以知道哪些词与当前词的关联度较⾼，但这些关联的具体信息，需要通过 V 来提供。K 其实是对输⼊序列中的每个词进⾏的特征编码，它帮助模型评估每个词对其他词的“响应”能⼒，类似于如何解释输⼊词与其他词之间的关系。

2025-08-28 09:33:26 496

原创 Encoder-only、Decoder-only和Encoder-Decoder的模型分别有什么区别，怎么运用？

等。

2025-08-27 17:11:19 911

原创了解迁移学习吗？大模型中是怎么运用迁移学习的？

预训练是⼀种从头开始训练模型的⽅式：所有的模型权重都被随机初始化，然后在没有任何先验知识的情况下开始训练，这个过程不仅需要海量的训练数据，⽽且时间和经济成本都⾮常⾼。因此，部分情况下，我们都不会从头训练模型，⽽是将别⼈预训练好的模型权重通过迁移学习应⽤到⾃⼰的模型中，即使⽤⾃⼰的任务语料对模型进⾏“⼆次训练”，通过微调参数使模型适⽤于新任务。: 在⼤模型（例如 GPT、BERT）中，迁移学习的核⼼思想体现在预训练-微调（Pre-training & Fine-tuning）的范式中。

2025-08-27 16:34:58 473

原创 CLM和MLM是什么，它们的区别是什么？

训练模型预测在⼀个句⼦中被随机掩盖（masked）的词。可以使⽤整个句⼦的上下⽂，包括掩盖词的前后内容。在训练过程中，句⼦中的⼀些词会被随机掩盖。训练模型预测⼀句话中的下⼀个词。，模型的任务是根据其余词来预测被。只能利⽤它前⾯的上下⽂信息。在训练过程中，模型只能看到到。这是⼀种⾃回归模型。定义：因果语言模型，

2025-08-27 16:32:13 450

原创【无标题】

编码器（Encoder）解码器（Decoder）上下文向量（Context Vector）输入序列 ("A B C") -> [编码器] -> 上下文向量 -> [解码器] -> 输出序列 ("X Y Z")(编码过程) (信息瓶颈) (解码过程)

2025-08-27 15:16:39 674

原创法律问答大模型问题

2025-08-27 14:29:23 176

原创如何解决float16溢出的问题

在深度学习模型的训练过程中，计算资源和训练速度是两个重要的考量因素。使⽤较低精度的浮点数（如 float16）可以减少内存占⽤和提⾼计算速度。然⽽，float16 的数值范围和精度较⼩，可能导致数值溢出（overflow）或下溢（underflow），从⽽影响模型的训练效果。

2025-08-27 10:32:26 337

原创 FL32,FL16,BF16的区别

float32（32位浮点数）具有较⾼的精度，包含8位指数和23位尾数。float16（16位浮点数）仅有5位指数和10位尾数，因此它的数值范围和精度都较低。bfloat16（16位浮点数）与float16类似，但其8位指数和7位尾数使得它具有float32的数值范围，但精度⽐float32低。

2025-08-27 10:08:24 157

原创混合精度原理

1、混合精度的原理与使用流程混合精度（Mixed Precision）训练是⼀种通过结合不同数值精度（如FP32和FP16）进⾏深度学习模型训练的⽅法，旨在提⾼计算效率并减少内存占⽤，同时在保持模型精度的前提下优化训练性能。其核⼼思想是，模型中的某些操作对数值精度要求较⾼，⽽另⼀些操作可以使⽤较低精度完成，从⽽在性能与精度之间找到平衡。1、混合精度的原理与使用流程损失缩放（Loss Scaling）

2025-08-27 09:57:23 71

原创 7、prefix-tuning、P-tuning、Prompt-tuning

与传统的参数⾼效微调⽅法（如Adapter或prefix-tuning）相⽐，P-tuning不改变模型的结构或权重，⽽是通过优化前缀（提⽰向量）的表⽰来影响模型的⾏为。Prompt-tuning的核⼼思想是在输⼊序列前插⼊⼀个可训练的提⽰（prompt），这些提⽰不再是离散的⽂本，⽽是连续的嵌⼊向量。与全参数微调或其他参数⾼效的微调⽅法（如Adapter、LoRA）不同，prefix-tuning不直接改变模型的内部结构或权重，⽽是通过对输⼊进⾏扩展，以较⼩的参数开销适应下游任务。

2025-08-27 09:49:23 460

原创 2、Lora的原理

2.1LoRA的原理2.1LoRA的原理LoRA 通过引⼊低秩矩阵分解，在微调时不再调整原始模型的所有权重，⽽是通过将权重矩阵分解成两个较⼩的低秩矩阵来表⽰权重的变化。尽管预训练模型拥有⼤量的参数，但许多参数在特定任务的微调过程中实际上是不活跃的。LoRA通过低秩分解的⽅式，只更新那些对特定任务最重要的参数，这样做可以在保持模型性能的同时，显著减少微调所需的计算资源和时间。

2025-08-26 08:29:58 353

原创 28 FlashAttention

FlashAttention 的原理。

2025-08-25 17:19:36 245

原创 VLLM的加速原理

这样做的好处是极⼤减少了 KV 缓存中的内存浪费，并提⾼了推理过程中的内存利⽤率。PagedAttention 通过精细管理 KV 缓存，减少了推理过程中的内存开销，特别是在处理⻓序列或多个输出时的内存浪费。其中，PagedAttention是 VLLM 的核⼼技术，专⻔⽤于解决 LLM 推理中的内存瓶颈问题，尤其是⾃回归⽣成任务中的键值 (KV) 缓存管理。通过这种分块管理⽅式，VLLM 可以在保持推理速度的同时，极⼤降低内存占⽤，尤其是应对⻓序列推理时的内存瓶颈。不需要等待整个批次的推理完成。

2025-08-25 16:01:49 616

空空如也

空空如也