大鹏的专栏

关注人工智能，自然语言处理，语音处理，图像识别，大数据，信息检索，语义网，知识图谱，编译原理，网络安全，软件架构，计算机语言的发展等等

原创大模型中为什么 CoT 对分类有效？

摘要： CoT（Chain-of-Thought）在分类任务中的有效性并非源于“更聪明”，而是通过显式特征构造+逐步收敛的决策路径，显著降低模型决策自由度。传统分类是隐式、一次性的高熵判别，易受干扰且不可回溯；而CoT将问题重构为分步条件判别（$H(label∣x,r_1,…,r_k)$），通过中间推理过滤噪声，动态构建线性可分特征空间。信息论视角下，CoT将不确定性前移，使模型在低熵空间做最终判断。其对长文本、多条件分类效果显著，但在低熵或强规则任务中可能失效。本质是受控决策路径，通过约束判断过程减少错误

2025-12-23 20:59:11 435

原创多 Agent 强化学习实践指南（一)：CTDE PPO 在合作捕食者-猎物游戏中的应用详解

本文介绍了在合作捕食者-猎物游戏中应用PPO算法和CTDE（集中训练、分散执行）模式的方法。游戏设定为多个捕食者Agent协作捕捉猎物Agent，通过网格地图环境实现。系统采用中心化Critic评估全局状态，为分散的Actor策略网络提供指导。训练流程包括：数据收集（记录局部观测和动作）、计算基于全局信息的优势函数、优化策略和价值网络。PPO的损失函数包含策略损失、价值损失和熵奖励项，通过限制策略更新幅度来保证稳定性。该方法利用CTDE框架，在训练阶段获取全局信息，在执行阶段仅依赖局部观测，……

2025-07-12 22:01:50 589

原创语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数

本文深入解析了PPO算法在语言模型强化学习微调中的关键计算流程。策略网络通过softmax将logits转化为token概率，用于计算策略概率比；价值网络预测状态期望奖励；奖励函数则来自人工偏好或奖励模型。PPO的核心在于策略损失函数和价值损失函数的设计，二者共同构成总损失函数。文章特别强调PPO属于on-policy算法，必须更新策略后重新采样数据，不能复用旧轨迹。理解这些原理对实现稳定高效的RLHF微调至关重要。

2025-07-08 20:03:10 1487

原创中文大模型的技术债问题

中文大语言模型在快速发展过程中积累了大量技术债，主要表现为：数据层存在语料污染和标注标准不统一问题；模型层因结构快速演化导致验证不足和权重遗忘；工程层面临工具链碎片化和测试缺失等挑战；系统层存在部署复杂和资源耦合问题。这些技术债导致模型性能不稳定、迁移困难、安全风险增加等后果。建议通过建立统一标准、加强数据治理、优化工程实践、提升模型可解释性等措施来缓解技术债问题，推动中文大模型向更可控、可持续的方向发展。

2025-07-05 14:36:15 622

原创基于 Transformer RoBERTa的情感分类任务实践总结之六——知识蒸馏

本文提出了一种高效的知识蒸馏方法，结合超参数优化和大规模训练技术。核心是将教师模型（reberta微调模型）的知识迁移到轻量级学生模型（distilbert-base-uncased）中，采用三种蒸馏策略：软标签蒸馏（通过KL散度实现概率分布迁移）、硬标签损失（交叉熵）和注意力蒸馏（MSE损失）。使用Optuna进行超参数自动优化，并集成Hugging Face的Accelerate库支持分布式训练、混合精度和梯度累积。

2025-06-25 17:46:49 1185

原创基于 Transformer RoBERTa的情感分类任务实践总结之五——剪枝

本文介绍了一种基于梯度计算的注意力头剪枝方法，该方法通过评估每个注意力头对模型损失的贡献程度，移除贡献较小的头来优化预训练Transformer模型（如RoBERTa）的性能。算法通过计算头部重要性分数，识别并剪枝最不重要头，随后进行微调恢复性能。实验使用IMDB数据集，结果表明该方法能有效降低模型复杂度，同时保持分类性能。TensorBoard日志显示训练过程稳定，评估指标证实了方法的有效性。

2025-06-15 21:01:59 383

原创基于 Transformer RoBERTa的情感分类任务实践总结之四——PGM、EMA

本文提出一种集成五大核心技术的NLP分类模型增强方案：1）R-Drop通过双前向传播和KL散度正则化提升泛化能力；2）PGM对抗训练在词嵌入空间添加多步扰动；3）EMA滑动平均抑制训练波动；4）标签平滑缓解过拟合；5）余弦退火学习率优化训练过程。该方案通过自定义Trainer和Callback机制实现端到端集成，在IMDB情感分类任务中验证了其有效性。实验表明，多重正则化技术的叠加能显著提升模型鲁棒性和泛化性能，适用于工业级NLP分类场景。

2025-06-12 21:04:41 531

原创基于 Transformer RoBERTa的情感分类任务实践总结之三——FGM

FGM本质思想：在训练阶段，主动给模型输入加一点"微小扰动"（adversarial perturbation），逼迫模型在 "坏情况" 下也能做出正确预测。

2025-06-08 13:19:30 971

原创基于 Transformer RoBERTa的情感分类任务实践总结之二——R-Drop

性能提升：相比基础RoBERTa，改进后模型在测试集上的F1分数提升约1.2%，AUC提升约0.8%，过拟合现象明显缓解。核心价值：R-Drop通过强制模型输出一致性，有效增强了预测稳定性；标签平滑则降低了模型对硬标签的依赖，两者结合显著提升了泛化能力。适用场景：文本分类、情感分析等任务，尤其适合标注数据有限或需提升模型鲁棒性的场景。

2025-06-07 15:46:10 1329

原创基于 Transformer RoBERTa的情感分类任务实践总结

本文介绍了使用Transformer模型进行情感分类的完整流程。通过Hugging Face工具加载roberta-base模型和IMDB影评数据集

2025-06-07 09:04:41 714

原创基于 LoRA 和 GRPO 的 Qwen2.5-3B 数学推理模型微调示例

本项目基于Qwen2.5-3B-Instruct模型，结合LoRA和GRPO技术，针对GSM8K数学推理任务进行微调。关键实现包括：1）数据预处理，将问题包装为对话格式并提取正确答案；2）LoRA配置（秩=16，alpha=32）优化关键模块；3）多维度奖励函数设计，分别评估答案正确性和XML格式规范性；4）GRPO训练设置（学习率2e-4，批次16）。目标是通过强化学习引导模型生成符合XML格式的数学推理过程。

2025-05-26 21:53:51 957

原创 BGE-M3 文本情感分类实战：预训练模型微调，导出ONNX并测试

本文介绍了如何基于BGE-M3开源模型实现一个简单的二分类情感分析任务，展示了NLP中经典的“预训练 + 微调”范式。首先，加载预训练模型和分词器，并构建分类头整合到模型中。接着，进行数据预处理并构建DataLoader。然后，定义优化器、损失函数和训练循环，进行模型微调。微调过程中，可以选择基于[CLS] token的单特征提取或基于池化策略的多特征融合。最后，通过验证与推理评估模型性能，并导出ONNX模型以适应生产环境。BGE-M3在语义表征任务中表现优异，适合作为文本分类、语义搜索等下游任务的基础模型

2025-05-22 20:24:27 962

原创语义向量的形状：各向异性与锥形分布

更具体的案例说明：在“典型案例与研究”部分，可以更具体地描述研究发现或模型改进的细节，例如BERT各向异性具体体现在哪些维度上，T5是如何通过标准化和对比学习缓解问题的。更清晰的结构化呈现：虽然你的结构已经很清晰，但可以考虑在每个主要部分（概念、成因、影响、应对策略）内部使用更细致的编号或项目符号，使信息层级更加分明。关键术语的强调：对于核心术语，例如“语义主轴”、“低维流形”、“向量退化”等，可以在首次出现时进行强调（例如加粗），方便读者快速抓住重点。

2025-04-24 08:29:25 1044

原创 Transformer中Post-Norm和Pre-Norm如何选择？

这种路径的核心作用是保留原始输入的信息，并通过残差连接（Residual Connection）等机制帮助梯度更顺畅地反向传播，避免深层网络中的梯度消失问题。其中第二项的方差由于有 norm 是不随层数变化的，于是 x 的方差会在主干上随层数积累。到了深层以后，单层对主干的影响可以视为小量，而不同层的 f 统计上是相似的，于是有。这样训练出来的深层 ResNet or Transformer，深层部分实际上更像扩展了模型宽度，所以相对好训练，但某种意义上并不是真正的 deep.

2025-04-21 21:58:40 906

转载开源：DeepSeek-R1 蒸馏数据集（110k）

开源：DeepSeek-R1 蒸馏数据集（110k）开源在了 Hugging Face 和 ModelScope 上，有直接SFT使用的版本，可直接下载本数据集为中文开源蒸馏满血R1的数据集，数据集中不仅包含math数据，还包括大量的通用类型数据，总数量为110K。该中文数据集中的数据分布如下：Math：共计36987个样本，Exam：共计2440个样本，STEM：共计12000个样本，General：共计58573，包含弱智吧、逻辑推理、小红书、知乎、Chat等。

2025-02-20 14:32:35 591

原创 docker镜像源配置及正确的重启方式。

【代码】docker镜像源配置及正确的重启方式。

2025-02-10 16:08:15 653

原创 cuda安装地址

【代码】cuda安装地址。

2024-11-28 20:10:41 252

原创 matplotlib解决中文乱码。

matplotlib中文乱码。

2024-11-04 17:02:02 294

转载 windows 修复移动硬盘

【代码】windows 修复移动硬盘。

2024-11-02 19:59:14 99

原创机器学习指标：准确率、精准率、召回率、F1、ROC曲线、AUC曲线

还是拿之前的例子，总样本中，90% 是正样本，10% 是负样本。这里，TPR 只关注 90% 正样本中有多少是被真正覆盖的，而与那 10% 毫无关系，同理，FPR 只关注 10% 负样本中有多少是被错误覆盖的，也与那 90% 毫无关系，所以可以看出：如果我们从实际表现的各个结果角度出发，就可以避免样本不平衡的问题了，这也是为什么选用 TPR 和 FPR 作为 ROC/AUC 的指标的原因。举个简单的例子，比如在一个总样本中，正样本占 90%，负样本占 10%，样本是严重不平衡的。这样不利于模型的学习。

2024-10-19 20:49:21 1643

原创 Ubuntu22.04安装cudnn详细步骤

注意，这里的libcudnn8和cuda版本的配对是指定的，可通过apt-cache policy libcudnn8命令查看。

2024-09-26 16:54:36 1634 1

原创如何创建模板提示prompt

它的目的是根据不同的输入动态生成特定格式的文本，以便为大语言模型（如GPT）提供更清晰、结构化的指令或上下文。如何创建模板提示：方式一：PromptTemplate(input_variables=[], template=“Tell me a joke.”)，这种要写input_variables。

2024-09-19 17:56:20 1994

原创大模型框架xinference的本地安装注意事项

这时候你在浏览器打开http://host-ip:9997/应该可以看到xinference的界面了。根据系统选择官方编译后的whl下载进行离线安装。这样，下载源就换为阿里的源了，同时服务也开启了。

2024-09-11 16:36:03 2090

原创本地源码方式部署启动MaxKB知识库问答系统

此命令应列出所有可用的扩展。专门查找 pgvector.control .python 版本大于3.11。初始的账号admin 密码。登录之后会提示你修改密码。

2024-09-11 16:34:32 1264

原创 pip install pyaudio时， src/pyaudio/device_api.c:9:10: fatal error: portaudio.h: 没有那个文件或目录

ubuntu 22。

2024-08-27 16:41:20 488

原创设置Ollama在局域网中访问的方法（Ubuntu）

【代码】设置Ollama在局域网中访问的方法（Ubuntu）

2024-08-09 14:36:41 11863

原创 fatal: unable to access ‘https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2/‘: Failed to

如果你曾设置过代理，便会在再设置代理时遭遇此错误。使用 --unset-all 替代 --unset 即可解决。

2024-07-26 09:26:13 857

原创 MediaDevices.getUserMedia` undefined 的问题

通过传递相应参数来启动 Chrome Insecure origins treated as secure flag 并填入相应白名单。

2024-07-17 17:23:02 478

原创 BM25算法, Best Matching

BM25 其实是一个（准确说，是一系列）经验公式，这里面的每一个环节都是经过很多研究者的迭代而逐步发现的。很多研究在理论上对 BM25 进行了建模，从“概率相关模型”（Probabilistic Relevance Model）入手，推导出 BM25 其实是对某一类概率相关模型的逼近。从结果上看，我们应该明了 BM25 权重计算公式，已经在众多的数据集和搜索任务上，被极其高频广泛和成功地使用。BM25 算法公式由三个主要的模块构成，包括。

2024-05-13 17:51:32 2042

原创文本生成任务的评价方法BLEU 和 ROUGE、BERTScore

BLEU 是 2002 年提出的，而 ROUGE 是 2003 年提出的。这两种指标虽然存在着一些问题，但是仍然是比较主流的评价指标。

2024-04-20 20:22:05 8275

原创 gemma 大模型（gemma 2B,gemma 7B）微调及基本使用

Gemma是Google推出的一系列轻量级、最先进的开放模型，基于创建Gemini模型的相同研究和技术构建。提供了 2B 和 7B 两种不同规模的版本，每种都包含了预训练基础版本和经过指令优化的版本。所有版本均可在各类消费级硬件上运行，无需数据量化处理，拥有高达 8K tokens 的处理能力：它们是文本到文本的、仅解码器的大型语言模型，提供英语版本，具有开放的权重、预训练的变体和指令调优的变体。Gemma模型非常适合执行各种文本生成任务，包括问答、摘要和推理。

2024-03-28 21:41:31 15232 8

原创 Transformers 直观解释——不仅是如何工作，而且为什么工作得这么好

查询Q和键K之间的点积计算每对单词之间的相关性。然后将该相关性用作“因子”来计算所有值V的加权和。该加权和作为注意力分数输出。Transformer 学习嵌入等，从而使彼此相关的单词更加对齐。这是引入三个线性层并为查询、键和值创建三个版本的输入序列的原因之一。这为注意力模块提供了更多参数，它可以学习这些参数来调整词向量的创建。

2024-03-27 22:36:02 997

原创传统语音识别系统流程

语音识别传统方法主要分两个阶段：训练和识别，训练阶段主要是生成声学模型和语言模型给识别阶段用。

2024-01-19 18:18:34 2218

原创 postgres 登录及常用命令

PostgreSQL默认会创建一个postgres的数据库用户作为数据库的管理员。将sqlScript.sql导入到名为database的数据库中。

2023-12-06 18:43:44 2650

原创 Paraformer 语音识别原理

模Paraformerr的组成：Encoder(编码器)，Predictor(预测器)，Sampler（采样器），Decoder（解码器），loss function。

2023-11-30 17:23:54 6173

原创 NLP中大语言模型LLM中的思维链 Chain-of-Thought(CoT) GoT

在过去几年的探索中，业界发现了一个现象，在增大模型参数量和训练数据的同时，在多数任务上，模型的表现会越来越好。因而，现有的大模型LLM，最大参数量已经超过了千亿。然而，增大模型参数规模，对于一些具有挑战的任务（例如算术、常识推理和符号推理）的效果，并没有太大提升。对于算术类推理任务，我们期望模型生成自然语言逻辑依据来指导并生成最终答案，但是获得逻辑依据是比较复杂昂贵的（标注成本层面）。

2023-11-24 22:19:47 7963