啦啦啦在冲冲冲-优快云博客

原创 lora矩阵的初始化为啥B矩阵为0呢，为啥不是A呢

在 LoRA 论文及其标准实现中，，而矩阵 $A$ 则使用标准的初始化方法（例如 Kaiming 或 Xavier 均匀分布）进行初始化。

2025-11-20 11:38:56 364

原创关于梯度检查点和dpo的损失函数

🔹 梯度检查点不影响“梯度更新频率”；🔹 它只是减少“反向传播时需要保存的激活数量”；🔹 反向传播时通过“重算”来恢复激活；🔹 模型参数、梯度公式、更新方式都完全一致；🔹 唯一差别：显存占用下降、计算时间上升。✅ 如上所示，带 sigmoid 的对比损失形式。→ 惩罚偏离参考模型更强 → 模型保守（不敢改太多）→ 放松约束 → 模型更自由（能快速学偏好，但可能崩）

2025-11-12 15:28:48 386

本文对比分析了RAG(检索增强生成)和DeepResearch两种AI技术的关键差异。RAG通过单次检索外部知识库生成即时回答，适合知识问答等场景；而DeepResearch采用多轮检索、推理规划和自我反思的深度研究流程，更适用于需要严谨分析的复杂任务。核心区别在于：RAG侧重知识覆盖（单次检索+生成），DeepResearch追求逻辑严谨（多轮循环+验证迭代）。典型应用场景上，RAG常用于企业知识库和客服系统，DeepResearch则更适合投研分析和科学决策等专业领域。技术演进趋势显示，从基础RAG到具

2025-11-10 10:59:07 346

原创大模型在生成内容时可能出现幻觉，如何检测和缓解呢

大模型"幻觉"指生成看似合理实则错误的内容，源于数据缺陷、概率预测特性和信息损失。检测方法包括事实核查、不确定性分析和自我修正。缓解策略需多管齐下：优化训练数据、采用检索增强生成、调整解码策略等。核心是通过知识增强和过程控制，在保持创造力的同时减少错误信息输出。

2025-10-14 21:43:06 441 1

原创大模型的scaling law是什么，对模型的性能有什么影响

摘要：Scaling Law揭示了模型参数量、训练数据量和计算量之间的幂律关系，表明按比例扩大这三个因素可预测地提升模型性能。该定律指导了最优资源分配，推动了大模型"涌现能力"的出现。但存在收益递减、数据质量需求增高等局限性，引发对新范式的探索。研究表明，未来需要结合结构创新与算法优化，而非单纯依赖规模扩张。

2025-10-14 21:33:58 787

原创 mse和交叉熵loss，为什么分类问题不用 mse

摘要：在分类任务中，交叉熵损失优于均方误差（MSE）的原因主要有三点：1）MSE基于高斯分布假设，与分类问题的概率分布本质（伯努利/多项式分布）不匹配，而交叉熵源自最大似然估计，更符合分类特性；2）MSE结合Sigmoid/Softmax易导致梯度消失，尤其在预测错误时修正能力弱，交叉熵则能提供与误差成比例的强梯度信号；3）MSE形成非凸优化曲面且对错误惩罚不足，交叉熵构造凸优化目标并通过指数级惩罚推动模型快速修正错误。

2025-10-13 09:36:27 436

原创大模型的kv cache怎么计算呢

KVCache是Transformer模型推理时的关键优化机制，通过缓存历史token的Key和Value避免重复计算。其内存占用与序列长度、模型维度、层数成正比，计算公式为：总KVCache大小=层数×2×序列长度×模型维度。以LLaMA-7B为例，2048长度序列的FP16缓存约需1.07GB。量化技术可显著降低内存需求，但长文本推理仍面临显存压力。该机制直接影响大模型推理的显存占用和效率。

2025-10-13 08:35:31 860

原创面试中被问到在linux系统中查看端口是否被占用的命令行是什么，让进程在后台运行的命令是什么，如何快速的对一个list去重，如果list的长度非常长(且不改变数据格式)

摘要：本文介绍了Linux系统查看端口占用的常用命令(netstat和lsof)，以及让进程在后台运行的多种方法(&、nohup、screen/tmux)。同时详细讲解了Python中对长列表去重的技巧，包括不保持顺序(set)和保持顺序(dict.fromkeys/遍历检查)两种场景的高效实现方案，体现了对命令工具和数据处理方法的全面理解。

2025-10-09 21:18:47 247

原创面试被问到query不规范，导致召回难度大，如何解决呢

查询规范化与扩展是提升搜索召回率的两大核心技术。规范化包括拼写纠错（如"iphon"→"iphone"）、词形归一（"running"→"run"）和停用词处理（去除"的"等词）。查询扩展通过同义词替换（"土豆"→"马铃薯"）、用户行为分析和大语言模型生成（如LLM改写查询）来弥补用户表达与文档内容的语义差距。这些方法需系统化组合应用，并通过A/B测试持续优化，有效缩小

2025-10-09 21:14:18 468

原创了解ddp和fsdp

DDP和FSDP是PyTorch的两种分布式训练技术。DDP通过数据并行实现多GPU训练，每个GPU保存完整模型副本，计算梯度后同步更新。FSDP是DDP的升级版，采用参数分片技术，将模型参数、梯度和优化器状态分片存储在不同GPU上，通过动态重组降低内存占用，适合超大规模模型训练。两者核心区别在于DDP保留完整模型而FSDP采用分片存储，后者能更高效利用显存资源。

2025-09-26 21:13:03 377

原创讲一讲什么是重要性采样

重要性采样是一种蒙特卡洛方法，通过从易采样的建议分布中获取样本并加权，来估计目标分布下的期望值。该方法在大模型/NLP领域有广泛应用，包括语言模型评估、强化学习策略梯度、文本生成多样性控制等。改进方法包括自归一化采样、自适应采样等，可降低方差提升估计效率。该方法的核心在于选择合适建议分布，确保与目标分布差异不过大，以避免估计不稳定。

2025-09-24 22:10:45 811

原创 cpt和pretrain的差别，IFT和SFT的差别是怎么样的

摘要：预训练（Pretrain）是在无标注通用数据上训练基础模型，而继续预训练（CPT）是在已有模型上用领域数据增强特定能力。监督微调（SFT）泛指使用标注数据的微调，指令微调（IFT）是SFT的子集，特指用指令-响应对提升模型遵循指令的能力。典型流程为：Pretrain→CPT（可选）→SFT/IFT→RLHF（后续）。CPT仍属自监督学习，SFT/IFT则进入监督学习阶段。

2025-09-24 22:09:53 873

原创如何实现混合精度训练（AMP）？遇到NaN怎么处理呢

摘要：混合精度训练(AMP)通过同时使用float16和float32加速训练并减少显存占用，核心包括权重FP32保留、自动精度转换和损失缩放。PyTorch实现需使用GradScaler和autocast管理器。训练中遇到NaN可能由学习率过高、梯度爆炸或数据问题导致，建议通过异常检测定位问题，采取降低学习率、梯度裁剪或检查数据等措施解决。

2025-09-23 21:54:09 610

原创解释梯度累积的原理和实现代码

梯度累积是一种在不增加显存消耗的情况下模拟大批量训练的技术。其核心原理是：多次前向传播和反向传播后，不立即更新权重，而是将梯度累存起来，待累积N次后统一更新。这等效于使用N倍批量进行训练，同时只占用小批量的显存。主要优点包括解决显存不足问题（通过小批量模拟大批量）和提升训练稳定性（梯度计算更准确）。实现关键在于：1)将损失除以累积步数以保持梯度等效；2)在权重更新后才清零梯度。代码中需控制optimizer.step()和zero_grad()的调用时机，确保梯度正确累积。该技术特别适用于训练大型模型或显存

2025-09-23 21:50:09 273

原创大模型灾难性的原因和缓解方法？

首先，可以简要解释什么是灾难性遗忘（Catastrophic Forgetting）。它指的是深度学习模型在学习新任务时，会显著遗忘之前已经学习过的旧任务的知识，导致在旧任务上的性能大幅下降的现象[1][2在持续学习或增量学习的场景中，这是一个关键的挑战[2。

2025-09-23 21:48:19 590

原创什么情况用bert模型，什么情况用llama、chaglm类的大模型？

当你的任务目标明确、输入和输出相对固定，并且更侧重于对输入文本的理解时，BERT 是一个性价比极高且效果出色的选择。典型应用场景:文本分类 (Text Classification):情感分析: 判断一段评论是正面的、负面的还是中性的。新闻分类: 将新闻文章自动归类到体育、科技、财经等频道。意图识别: 在对话系统中，判断用户输入的意图是“查询天气”还是“播放音乐”。命名实体识别 (Named Entity Recognition, NER):从句子中抽取出人名、地名、组织机构名等特定实体。例如，在“苹果公司

2025-09-23 02:00:00 762

原创 transformer Block中模型参数量占用配比是怎么样的，参数量最大的那一层？

将拼接后的多头输出再投射回 d_model，权重矩阵 W_o 的尺寸是 [d_model, d_model]。：将输入 d_model 投射为 Q，权重矩阵 W_q 的尺寸是 [d_model, d_model]。：将输入 d_model 投射为 K，权重矩阵 W_k 的尺寸是 [d_model, d_model]。：将输入 d_model 投射为 V，权重矩阵 W_v 的尺寸是 [d_model, d_model]。d_model：模型的隐藏层维度（例如，BERT-base 中是 768）。

2025-09-22 21:54:17 547

原创在ppo中，如何防止模型在微调数据集以外的问题上泛化能力下降？如何防止模型收敛到单一类型的高奖励回答

总而言之，解决这两个问题是一个系统工程。对于泛化能力下降，核心是KL散度约束，确保模型‘不忘本’。对于回答单一化，核心是提升奖励模型鲁棒性和引入多样性激励机制（如熵奖励）。

2025-09-22 21:44:09 544

原创如何计算sequence粒度的负载均衡损失

在面试中，您可以这样开始：“面试官您好，‘sequence粒度的负载均衡损失’这个概念，我认为核心是指在训练混合专家模型（MoE）时，为了确保各个专家能够被均匀地使用，而引入的一种辅助损失函数 (Auxiliary Loss)。如果某个专家被分配了过多的token（f_i 很高），或者门控网络对它有很高的路由偏好（P_i 很高），都会导致最终的损失值增大，从而在反向传播时调整门控网络的参数，使其分配更为均衡。“在实际的大模型训练中，由于数据并行的设置，这个负载均衡损失通常是在一个。

2025-09-22 21:30:00 900

原创说一说大模型后训练的流程

大模型优化包含两个关键阶段：首先是监督微调(SFT)，使用高质量指令-回答数据对训练模型理解指令并生成初步响应；随后是基于人类反馈的强化学习(RLHF)，先训练奖励模型评估回答质量，再通过强化学习优化模型输出，使其更符合人类偏好。该方法显著提升了模型在有用性、诚实性和安全性方面的表现。

2025-09-19 21:51:56 357

原创 prefix Lm和causal LM encoder-decoder区别以及各自有什么缺点

本文对比分析了三种主流语言模型架构：CausalLM（因果语言模型）、Encoder-Decoder（编码器-解码器模型）和PrefixLM（前缀语言模型）。CausalLM采用单向自回归方式生成文本；Encoder-Decoder通过独立的编码器和解码器处理序列转换任务；PrefixLM则混合了前两者的特点，通过注意力掩码实现前缀双向编码和后续自回归生成。三者核心区别体现在模型架构、注意力机制、上下文利用和训练方式上。各自的缺点包括：CausalLM上下文理解受限；Encoder-Decoder架构复杂、

2025-09-19 21:50:48 654

原创讲讲对MoE的理解

最后，用一个总结和具体的模型例子来收尾。“总而言之，MoE是一种非常强大的模型架构，它通过‘稀疏激活’的策略，巧妙地解决了模型规模与计算成本之间的矛盾。它已经成为构建当今最顶级大语言模型（如Google的Switch Transformer、GLaM以及Mistral AI的Mixtral 8x7B）的关键技术。虽然它在训练稳定性和硬件需求方面带来了新的挑战，但其巨大的潜力使其成为大模型领域一个极其重要的研究方向。

2025-09-17 21:10:36 624

原创讲讲self-attention，既可以从结构来说，也可以从代码来说怎么回答

自注意力机制是Transformer的核心组件，通过查询(Query)、键(Key)和值(Value)三个向量动态计算序列中单词的相关性。其工作流程包括：计算相关性得分、缩放、Softmax归一化得到注意力权重，最后加权求和获得上下文感知表示。实践中采用多头注意力机制，并行计算多个注意力头以捕捉不同依赖关系。代码实现上，通过线性投影生成QKV，使用矩阵运算计算注意力得分，并整合多头输出。该机制使模型能像人类一样理解词语在特定语境中的含义。

2025-09-17 21:09:12 792

原创强化学习的演化过程和强化学习背后能够收敛的数学原理是什么应该怎么回答呢

强化学习经历了从模型依赖到无模型探索，再到与深度学习融合的演化过程。早期基于动态规划的算法需要完美环境模型，后发展为Q-Learning等无模型试错方法。深度强化学习通过神经网络处理高维状态空间，PPO等算法成为主流。现代RL追求样本效率和泛化能力，与LLM结合实现RLHF等应用。数学上，RL的收敛性由贝尔曼方程和压缩映射原理保证，广义策略迭代框架确保算法稳定趋向最优解。

2025-09-17 09:09:59 785

原创大模型decoder中权重矩阵的理解

组件主要权重矩阵/参数数量主要功能自注意力4 个矩阵关联序列中的不同位置信息前馈网络2 个矩阵进行非线性计算，增强模型表示能力归一化层2 组向量稳定训练过程一个完整的 GPT 模型是由很多个这样的 Decoder Block 堆叠起来的（例如 Llama-7B 有 32 个），再加上一些其他参数。

2025-09-16 22:15:10 931

原创讲一讲cot蒸馏以及grpo的方式训练模型

摘要：CoT蒸馏是一种知识蒸馏技术，通过让大模型生成详细推理过程（Chain-of-Thought）并监督微调小模型，使其掌握推理能力而非简单记忆。GRPO是一种新型强化学习对齐算法，无需预训练奖励模型，而是通过比较模型输出与"理想回复"的token概率差异，实时更新策略。两者分别聚焦能力迁移与高效对齐：CoT蒸馏通过SFT传递推理能力，GRPO用轻量级在线学习优化模型行为。

2025-09-15 23:00:00 864

原创如何理解ppo里面reward model 和value model，一个是sentence粒度,一个是token粒度呢

下棋的比喻：就像是比赛结束时，判断最终胜负的规则（赢了得1分，输了得-1分）。它只在棋局结束后给出评价。就像是棋局进行到一半时，一个高手对当前盘面的局势判断（比如“白方有60%的胜算”）。它在每一步棋后都能给出一个评估。我们正是利用每一步棋之后局势的变化（价值的变化），来判断刚刚那一步棋是“好棋”还是“臭棋”，并以此来提升我们的棋力（更新LLM）。

2025-09-15 20:00:00 766

原创温度是怎么作用于模型输出的？

温度是控制文本生成随机性的超参数：低温（<1）使输出更确定，适合事实问答等任务；高温（≥1）增加多样性，适合创意写作。数学上，温度通过缩放logits值来调整softmax概率分布的尖锐度。实际应用中常与Top-K/P采样结合使用，平衡生成文本的精确性与创造性。温度本质是调节模型在保守输出与创新探索之间的权衡机制。

2025-09-13 09:58:25 323

原创 Adam相比较sgd做了哪些优化

Adam优化器是Momentum和RMSProp的结合体，通过自适应学习率实现快速稳定收敛。它采用三个核心机制：1）动量机制（一阶矩估计）积累历史梯度方向，加速收敛并减少震荡；2）自适应学习率（二阶矩估计）为不同参数动态调整学习率，大梯度参数减小步长，小梯度参数增大步长；3）偏置校正修正训练初期的估计偏差。相较于SGD，Adam收敛更快、更稳定且对初始学习率不敏感，但可能存在泛化性稍弱和内存占用较大的缺点，目前仍是深度学习的主流优化器之一。

2025-09-13 09:50:41 721

原创你知道的embedding的方式有哪些

文章摘要： Embedding是将离散的高维数据转化为低维连续向量的技术，用于捕捉语义关系，提升计算机对非结构化数据的处理能力。主流方法包括：1）静态词嵌入（如Word2Vec、GloVe、FastText），生成固定词向量；2）动态词嵌入（如BERT、GPT），基于上下文生成动态向量，解决一词多义问题；3）超越词汇的嵌入（如句子嵌入、图嵌入、多模态嵌入），扩展至更大粒度或非文本数据。在大模型时代，Embedding是输入层的基础技术，并广泛应用于知识库构建（如RAG系统）和语义检索。未来，Embeddin

2025-09-12 09:29:07 1021

原创你知道的rerank方式有哪些

摘要：Rerank（重排序）是信息检索中提升结果精准度的关键环节，作用于初步检索后的候选集。主流方法包括：1）交叉编码器（如BERT、BGE-Reranker），通过联合编码Query-Document实现高精度排序，但计算开销大；2）大语言模型（LLM）（如RankGPT），利用Prompt策略（逐点/逐对/列表法）实现语义推理，但成本高且受上下文限制；3）商业API（如CohereRerank），开箱即用但需考虑费用和数据隐私；4）经典LTR模型（如LambdaMART），依赖特征工程，适合传统场景。选

2025-09-11 22:08:07 518

原创 function-call怎么训练的，预料如何构建

高质量数据集是训练优秀函数调用模型的基础，需要采用对话格式并明确定义函数列表。数据集应覆盖简单调用、多函数选择、多轮依赖等多种场景，并包含无需调用的案例。数据来源包括人工标注、公开数据集和合成数据。训练时选择合适的基础模型，采用LoRA等高效微调技术，目标是让模型正确生成函数调用请求。评估需关注函数选择、参数准确性及无调用场景判断能力，同时注意数据平衡和模型与代码的解耦。

2025-09-10 21:21:19 952

原创面试问到DAPO怎么办，dapo去掉kl并且clip-higher，不会训飞掉吗

如果KL散度超过一个设定的目标范围，它会自动调整损失函数中的有效权重，让KL惩罚“动态”地加强或减弱，从而确保训练始终处于一个稳定的区间。DPO的损失函数虽然避免了对奖励模型的训练，但它依赖于一个固定的β（beta）参数来控制模型输出分布和原始参考模型（reference model）分布之间的KL散度惩罚。：没有正则化，模型会竭尽全力去拟合偏好数据集中的每一个细节，包括可能的噪声和特定模式。模型在学习时，可能会疯狂地、没有上限地提高“胜出回答”的概率，这同样会导致训练的不稳定和输出分布的扭曲。

2025-09-10 21:19:04 645

原创 DPO相比SFT，有哪些优劣？它在agent任务上效果明显吗，你怎么构造偏好对？构造逻辑时自动的还是人工的？

SFT(监督微调)和DPO(直接偏好优化)是模型优化的两个关键阶段。SFT通过模仿标准答案注入知识，但存在答案固化、无法学习相对偏好的局限；DPO则通过对比学习人类偏好，能优化思考路径、工具选择等复杂决策。在Agent任务中，DPO效果显著，可优化思考链、提升鲁棒性和效率。偏好数据构造需人机结合：初期人工确定标准，后期用模型对比、规则修改等方式自动化扩展，辅以AI裁判和人工审核。DPO是构建高质量Agent的核心技术，但需建立在良好SFT基础上。

2025-09-09 21:28:55 791

原创 sft冷启动时数据集构造需要注意哪些因素？为什么要做数据清洗与均衡采样？

SFT冷启动阶段的数据集构建是模型效果的关键。核心要点包括：确保数据质量（准确性、一致性）、多样性（覆盖各类场景）、任务对齐（紧密匹配目标）和标注一致性。数据清洗至关重要，能剔除错误和噪声，防止"垃圾进垃圾出"现象，保障模型安全性和可靠性。均衡采样则解决数据分布不均衡问题，避免模型偏见，提升对关键少数类别的识别能力，增强模型泛化性能。二者共同确保模型从高质量、均衡的数据中学习到正确的知识。

2025-09-09 21:19:19 844

原创 Label Smoothing Cross Entropy（标签平滑交叉熵）是什么

本文介绍了标签平滑（Label Smoothing）技术。标准交叉熵损失使用硬标签（非0即1），容易导致模型过于自信、泛化能力下降。标签平滑通过将真实类别概率从1降至1−ϵ，其他类别从0提升至ϵ/(C−1)，形成软标签，使模型保留对非真实类别的微小概率。这种方法能缓解过拟合、提高模型校准性和鲁棒性，被广泛应用于Vision Transformer、BERT等大模型中。

2025-09-09 17:04:52 292

原创自监督、半监督和无监督和自回归有关系吗问到这个怎么回答？

摘要：自监督、半监督和无监督属于学习范式（如何利用数据训练），而自回归是一种建模方法（序列生成结构）。它们可交叉使用，如自回归模型采用自监督训练（如GPT），或用于无监督密度估计。自监督通过构造伪标签学习，是无监督的子集；半监督结合标注与未标注数据。自回归仅表示序列生成方式，不限定学习范式。实际应用中常组合使用，如自回归结构+自监督预训练+半监督微调。这些概念分属不同维度，可协同但非同一分类体系。（149字）

2025-09-08 17:20:03 292

原创 tensor.detach()和tensor.item()有哪些区别，分别对应什么使用场景

PyTorch中tensor.detach()和tensor.item()的核心区别在于：detach()返回与原Tensor共享内存的新Tensor（requires_grad=False），仍保留Tensor类型但脱离计算图；而item()仅能从单元素Tensor中提取Python标量值，完全丢失梯度信息。典型应用场景：detach()用于阻断梯度传播（如模型评估、参数冻结），item()用于获取具体数值（如打印loss值）。两者均不参与反向传播，但detach()保持Tensor形式，item()则转

2025-09-08 17:20:02 635

原创深度学习中的损失函数都有哪些，大模型时代主要用的损失函数有哪些，中间有什么区别？

摘要：深度学习中的损失函数按任务类型分为回归（MSE、MAE等）、分类（交叉熵、Hinge等）和序列任务（CTC等）。大模型（如GPT、BERT）几乎统一采用带Label Smoothing的交叉熵损失，因其符合语言建模的概率本质，梯度稳定且泛化性强。Label Smoothing通过软化one-hot标签缓解过拟合，成为预训练阶段的主流选择。相比传统任务的定制化损失，大模型更注重通用性和可扩展性。交叉熵在信息论上等价于最小化KL散度，是语言建模的自然选择。面试时可结合任务类型、损失函数特性及大模型需求进行

2025-09-08 16:03:45 1013

原创 gelu函数是什么呢？

GELU（高斯误差线性单元）是一种性能优越的激活函数，被视为ReLU的平滑升级版。它通过结合概率和线性变换，使神经元激活过程更加自然平滑。GELU的核心思想是根据输入值x的概率分布来决定激活程度，x越大激活概率越高，反之则越低。相比ReLU的硬性开关特性，GELU具有处处可导的平滑性、概率性解释更符合直觉、能有效缓解神经元死亡问题等优势。在BERT、GPT等Transformer架构中，GELU已成为标配激活函数，并展现出比ReLU更好的性能表现。

2025-09-08 16:03:21 953

空空如也

vscode的一些插件设置