u013250861-优快云博客

原创 LLM关键函数对比：训练阶段的model()，推理阶段的model()，推理阶段的model.generate()

以下是针对的详细分阶段解释与代码示例，涵盖训练、手动生成、Logits 提取和自动生成，输入均为，目标输出为。代码包含内部实现的简化逻辑。

2025-03-12 17:01:19 53

原创开源中文DeepSeek-R1（满血）蒸馏数据集-110K

其实数据蒸馏之前就常用，之前蒸馏GPT4，现在改成蒸馏DeepSeek-R1了。DS就像是一条鲇鱼，搅浑了开源和闭源这摊死水，前两天百度先宣布免费，再宣布开源。OpenAI同时也是坐不住了，先开发o1的思维链（总结版），后面也不挤牙膏了，说马上来GPT4.5和GPT5。Grok3明天也来了，所以开源越来越好啦~~开的这个数据集会有些不完善的地方，毕竟没搞那么久，但希望大家不喜勿喷！

2025-03-11 00:41:43 64

原创图解大模型RLHF系列之：人人都能看懂的PPO原理与源码解读

智能体（Agent）与环境（Environment）强化学习中两个实体的交互：状态空间S：S即为State，指环境中所有可能状态的集合动作空间A：A即为Action，指智能体所有可能动作的集合R即为Reward，指智能体在环境的某一状态下所获得的奖励。在 t 时刻，环境的状态为 St ，达到这一状态所获得的奖励为 Rt智能体观测到 St 与 Rt ，采取相应动作 At智能体采取 At 后，环境状态变为 St+1 ，得到相应的奖励 Rt+1。

2025-03-10 23:05:31 481

原创 RLHF几大常用框架实践对比（trl、deepspeedchat、colossalaichat）

其实SFT其实也展现出了很不错的性能，但是从实践上看，例如moss要做到和人类比较好的对齐，光微调的数据就达到100w的级别，这个级别的高质量数据收集起来代价还是比较高的，而后面RL的步骤，从实践结果来看，它能够用少量的数据让模型在对齐上的效果和泛化性达到一个新的高度。这篇文章里，提到了很多PPO的优化方法，里面我只试了一部分，目前来看，对优势值的正则化是有效的，能够让actor的loss变得稳定，如果是分布式的场景，记得要同步后再做正则，这块Trlx有相关的实现。我实践经验上看，多次迭代效果是更好的。

2025-03-10 23:04:06 693

原创 windows安装Mobaxterm（非portable版）后，本地打开终端的默认位置

C:\Users\Admin\AppData\Roaming\MobaXterm\slash\mx86_64b

2025-03-07 18:16:40 127

原创利用WeNet进行Squeezeformer 训练

通过以上步骤，可高效地在WeNet框架中完成Squeezeformer模型的训练与部署。具体细节需参考官方文档及论文实验设置。

2025-03-04 23:22:38 31

原创 Conformer、Squeezeformer、Zipformer 对比分析

ConformerSqueezeformer选择建议：选择建议： Conformer (2020)Squeezeformer (2022)Zipformer (2024)选择建议：

2025-03-04 23:01:40 62

原创自动语音识别（ASR）模型全览

场景适配建议移动端/嵌入式：Zipformer、Moonshine、QuartzNet（低功耗、轻量化）。实时交互：Squeezeformer、Transformer Transducer（低延迟）。多语言/方言：Whisper、腾讯云ASR、Paraformer（支持热词定制）。企业级服务：FunASR、WeNet（高精度、易部署）。学术研究：Kaldi、ESPnet（灵活可定制）。

2025-03-04 22:49:56 113

原创 Bert预训练语言模型汇总

同时要注意，BART在进行翻译任务时训练分为两步，首先要对BART的大部分参数进行固定，只训练额外编码器和BART编码器中第一层的部分参数，然后再通过少量的epoch中微调整个模型。其中被掩码连续token的长度k是一个超参数，如果k=1，即只掩码一个token，那么它将和BERT模型相似，如果k=m（m为输入句子的长度），那么该模型Encoders输入全是mask，模型架构与GPT相似，所有作者通过实验，将k从10%到90%（step为10%）各自训练了模型，发现当k=50%时模型效果最好。

2025-03-04 14:58:06 414

原创【李开复】2025最新演讲，预判AI发展趋势，最新的AI会带来重大影响

【李开复】2025最新演讲，预判AI发展趋势，最新的AI会带来重大影响

2025-03-03 23:20:15 186

原创多轮带RAG的SFT数据构造挑战

只有在精心挑选、合理标注、动态迭代的前提下，多轮 RAG 模型才能有效学习到如何在复杂对话中准确检索外部知识、整合上下文信息并生成高度可靠、符合用户需求的回答，从而在实战中真正发挥其强大潜能。在组织多轮带 RAG 的数据时，建议将对话、检索和回答三部分以统一结构显式地展现出来，方便后续进行高效筛选与 Fine-tuning。这种结构不仅让数据更具可读性，还能够让模型在 Fine-tuning 时“看到”清晰的输入输出映射关系：（对话上下文 + 检索到的文档） → 回答。

2025-03-03 19:22:20 41

原创大模型的结构化裁剪、非结构化裁剪

以**规则的结构单元（如整层、通道、滤波器）**为剪枝对象，直接移除整个模块。例如，删除某层中50%的滤波器。：移除Transformer中的注意力头、MLP层或整个模块（如LLM-Pruner）。：保持模型结构规则性，剪枝后模型仍为稠密矩阵，可直接部署于通用硬件（如GPU）。RIA: Plug-and-Play: 一种高效的大型语言模型后训练剪枝方法。Flash-LLM：通过非结构稀疏性实现成本效益高且高效的大型生成模型推理。并非所有专家都是平等的：混合专家大型语言模型的高效专家剪枝和跳过。

2025-02-28 18:54:24 39

原创编程能力暴涨！Anthropic 发布Claude 3.7 Sonnet与 Claude Code，实测效果惊艳

2025年2月25日，推出划时代的—— 全球首个混合推理模型，既能瞬间响应，又能通过“可见化思考”展现深度逻辑推演，开发者甚至可通过API精准控制其思考时长！同步亮相的命令行工具，以“终端协作代理”之姿颠覆开发流程，支持代码搜索、测试运行、提交等全栈操作，实测效率提升300%。并在 SWE-bench 与 TAU-bench 上取得好成绩。

2025-02-27 22:57:10 356

原创【论文解读】Zephyr：无需人类标注，只使用AI偏好数据进行蒸馏式偏好对齐

看到Huggingface的一套，是个不错的学习材料，按图索骥追溯一下相关的论文。从而间接地与人类偏好对齐。

2025-02-25 09:05:56 63

原创 Visualize Llama Inference Using Single and MultiGPUs

Inference using multiple GPUs involves splitting weight matrices by rows and columns, followed by operations like all-reduce or gather. This technique is commonly referred to as Tensor Parallelism (TP).Below are two visualizations of the LLaMA 3.1 8B model

2025-02-19 22:25:49 32

原创 DeepScaleR-1.5B-Preview：1.5B模型通过RL就可以媲美o1

为了构建我们的训练数据集，我们收集了1984-2023年AIME问题和2023年之前的AMC问题，以及来自Omni-MATH和STILL数据集的问题，这些数据集涵盖了来自多个国家和国际数学竞赛的问题。为了解决这一问题，我们利用了一个蒸馏模型，并引入了一种新颖的迭代扩展强化学习方案，将计算需求降低到仅3800小时的A100 GPU计算时间，实现了18.42倍的计算量减少，同时仅用一个15亿参数的模型就超越了OpenAI的o1-preview的性能。我们坚信，普及RL扩展是一个社区的努力，欢迎开源贡献和赞助！

2025-02-18 22:53:09 74

原创模型“对齐”人类偏好：有帮助（helpful）、诚实（honest）、无害（harmless）

模型“对齐”人类偏好，尤其是围绕“有帮助（helpful）”、“诚实（honest）”和“无害（harmless）”这三个核心原则，是确保人工智能系统符合人类价值观、伦理标准和社会需求的关键过程。：使用BLEU/ROUGE（帮助性）、事实一致性分数（诚实性）、毒性分类器（无害性）进行自动评估。：过度过滤可能导致回避必要讨论（如性别平等议题），需通过细粒度策略区分“有害”与“敏感但合理”。：若用户问“新冠是否通过5G传播”，模型应回答“无科学依据”，并引用世卫组织的辟谣声明。

2025-02-18 21:46:17 50

原创大规模语言模型（LLMs）指令微调一: FLAN

这篇论文和instruct-GPT的微调指令数据集的不同在于：该文的微调数据集来自于通用的NLP任务，通过指令模板改造输入输出的格式得到。之前的工作表明在非CoT任务上进行指令微调可以提高未见的非CoT任务的能力，但是本文发现这会导致模型在CoT任务上性能的下降。此外，与没有进行微调的模型相比，指令微调的改进幅度似乎并没有减少，这表明指令微调对未来的模型可能会继续有意义；之前的工作表明在非CoT任务上进行指令微调可以提高未见的非CoT任务的能力，但是本文发现这会导致模型在CoT任务上性能的下降。

2025-02-18 18:29:12 38

原创 Que2Search（上）：FaceBook新一代query搜索召回模型分享

笔者一直强调，看一篇paper或者一个新模型，最有价值的东西并不是模型的结构或技术，而是作者所遇到的场景、问题和需求。模型和技术只是作者应对这些问题所给出的方案，知晓问题才能知晓如何解决问题，这些问题很有可能你在业务中也遇到了只是你甚至都没发现它们的存在。Que2Search结构图我们先看看Que2Search的整体架构，仍然是经典的双塔结构，query塔侧的输入信息相对较少，结构也比较简单。作者主要在document塔侧下了很大的功夫，这些都是为了解决2.3中提到的商品理解的问题。

2025-02-16 16:40:53 1024

原创 QA处理训练数据常见的4种方法

此外，字节级（Byte-level）BPE 通过将字节视为合并的基本符号，用来改善多语言语料库（例如包含非ASCII 字符的文本）的分词质量。GPT-2、BART 和LLaMA 等大语言模型都采用了这种分词方法。原始LLaMA 的词表大小是32K，并且主要根据英文进行训练，因此，很多汉字都没有直接出现在词表中，需要字节来支持所有的中文字符，由2 个或者3 个Byte Token 才能拼成一个完整的汉字。

2025-02-16 15:02:59 1007

原创 Fish Speech 1.5：全球领先的多语言 TTS 工具！可本地部署“调教”。

FishSpeech是由 FishAudio 团队开发的一款TTS语音生成工具，与ChatTTS属于同时期（2024年6-7月）开源的超热门的TTS项目。而说起其团队成员，更是GitHub上的各类SVC大佬，也就是专做AI声音克隆的教父们。FishSpeech 在我刚开始看到它的时候，在GitHub上就有了3.1k Star量，如今5个月过去了，已经揽获了15.1k Star量。可见用户增长之快，因为确实好用，质量也上乘。FishSpeech 训练不像需要填写一大堆训练参数，有时候还需要进行微调。

2025-02-15 21:01:22 428

原创 F5-TTS本地部署教程：最强开源语音克隆TTS，极速复刻你的声音！

F5-TTS 是由上海交通大学、剑桥大学和吉利汽车研究院（宁波）有限公司于 2024 年共同开源的一款高性能文本到语音 (TTS) 系统，它基于流匹配的非自回归生成方法，结合了扩散变换器DiT) 技术。。这一系统能够在没有额外监督的情况下，通过零样本学习快速生成自然、流畅且忠实于原文的语音。F5-TTS 支持多语言合成，包括中文和英文，且能在长文本上进行有效的语音合成。此外，F5-TTS 还具备情感控制功能，能根据文本内容调整合成语音的情感表现，并支持速度控制，允许用户根据需要调整语音的播放速度。

2025-02-15 20:58:08 619

原创（2024）endnote迁移至zotero，包括题录和PDF附件

*备注：**由于导入到zotero时，同一xml文件的会放在同一个分组里，个人推荐如果分组不是特别多的情况下，逐个分组导出，然后将xml文件命名为分组的名称。如果你第一步在Endnote导出的时候，将不同的组分别导出并重命名，导入完之后，Zotero应该会保持一样的分组。直接将上述xml文件导入至zotero，只会导入题录，而不会导入附件。原因是，zotero无法识别xml文件中指明附件地址的url。文件夹下的xml文件，勾选将导入的分类和条目放入新分类和复制文件到Zotero存储文件夹，导入。

2025-02-15 16:59:12 832

原创 KTransformers：一个灵活的框架，用于体验前沿的 LLM 推理优化

通过用一行代码实现和注入一个优化模块，用户可以访问与 Transformers 兼容的接口、符合 OpenAI 和 Ollama 的 RESTful API，甚至还有一个简化的类似 ChatGPT 的网页用户界面。要使用提供的内核，用户只需创建一个基于 YAML 的注入模板，并在使用 Transformers 模型之前添加对 `optimize_and_load_gguf` 的调用。如果您需要其他功能，请告诉我们。遍历模型的所有子模块，匹配您在 YAML 规则文件中指定的规则，并用指定的高级模块替换它们。

2025-02-15 13:25:10 651

原创大模型：精度调试

大语言模型的成功证明了增大神经网络的参数规模能够提升模型性能，但同时也增大了对加速器内存、算力及通信传输带宽的要求。为了减少内存占用加快收敛速度，大模型训练往往采用16位半精度浮点格式，例如float16或者bfloat16。大量实验已经证明可以使用半精度浮点数训练大模型，也不会对模型性能带来显著影响，相反低精度计算作为正则化的一部分，反而能够给模型泛化能力带来好处。但目前低精度训练对模型的统计学影响也并不那么清晰，所以整个训练过程单纯使用低精度浮点运算非常具有挑战性。

2025-02-12 16:16:43 50

原创 MINT-1T：拥有一万亿Token和34亿张图像的多模态数据集

通过以上分析，可以看出 MINT-1T 数据集在多样性、质量和规模上都显著优于现有的开源数据集，尤其在科学和技术领域表现突出。基于 MINT-1T 训练的模型在多模态任务中的表现优越，为未来的多模态研究提供了坚实的基础和丰富的资源。MINT-1T：拥有一万亿Token和34亿张图像的多模态数据集。

2025-02-12 12:19:40 57

原创【LLM Pretrain data】DCLM

我们引入了用于语言模型的DataComp (DCLM)，这是一个用于受控数据集实验的测试平台，旨在提升语言模型的性能。作为DCLM的一部分，我们提供了从Common Crawl中提取的240T tokens的标准化语料库，基于OpenLM框架的有效预训练方案，以及一个包含53项下游评估的广泛测试套件。参与DCLM基准测试的研究人员可以在模型规模从412M到7B参数的范围内，进行诸如去重、过滤和数据混合等数据整理策略的实验。作为DCLM的基线，我们进行了大量实验，

2025-02-12 12:15:39 26

原创深入解析TRL模型：Hugging Face的强化学习Transformer语言模型

TRL（Transformer Reinforcement Learning）是由Hugging Face推出的一款创新性语言模型，它巧妙地融合了深度学习与强化学习的技术优势，旨在通过动态的学习机制来增强模型的语言理解和生成能力。本文将深入探讨TRL模型的工作原理，并通过具体的代码示例展示其在实际应用中的强大功能。在当今的人工智能领域，Transformer架构与强化学习技术分别代表了自然语言处理与决策制定过程中的两大重要突破。

2025-02-11 21:33:52 179

原创从零实现LLM-RLHF（LLM-RLHF-Tuning）【支持指令微调Alpaca模型；支持训练Reward模型；支持PPO算法训练RL模型】

sft模型：阶段1训练的有监督微调模型，作为策略模型的基线模型，在整个训练过程中参数固定不变，用于限制策略模型πθRL更新幅度，防止策略模型训练偏差过大rm模型：阶段2训练的奖励模型，在PPO训练过程中给生成的序列进行打分，在整个训练过程中参数固定不变。actor模型：策略模型，π(at|st,θ)根据状态 st 生成动作 at ，训练目标是最大化序列价值。critic模型：价值模型， Vϕ(st) 根据状态 st 进行打分，训练目标是打分更精准接近rm模型给的打分，估计折扣奖励更精准。

2025-02-11 18:34:06 47

原创一文搞懂SFT、RLHF、DPO、IFT【LLM 微调的进化之路】

可是，随着训练的进行，LLMs 会逐渐偏离它自己最开始的偏好，损失函数又会错误地估计 LLMs 当前的能力（和上文中的 PT 和 SFT 类似），进而导致不理想的训练结果。，使模型依照自己上一步的预测结果再多预测一步，近似地构建了 LLMs 对于指令的完整回复，更准确地估计了 LLMs 的偏好，从而获得更好的训练结果。DPO 融合了打分模型和策略模型的训练过程，因此只需要标注过偏好的数据、参考模型和策略模型，就可以使 LLMs 直接对齐人类的偏好，极大地减轻了训练时对计算资源的消耗。

2025-02-11 12:34:44 85

原创模型蒸馏：MiniLLM论文阅读（MiniLLM: Knowledge Distillation of Large Language Models ）【基座模型蒸馏】

发现单步的生成策略往往是很重要的，所以对刚刚的梯度公式做了一些变换，将单步的梯度分离出来。那如果我们可以获得更多的大模型的信息，比如说模型生成句子的概率，甚至是整个的白盒的模型，我们能否比现在做的更好。这个问题首先是有意义的，因为现在开源的优质大模型越来越多，相比于用GPT4去蒸馏，其实这些大模型也足以作为训练小模型的比较好的teacher模型。随着生成式大语言模型的兴起，很多工作也尝试从chatgpt的API中获取数据，然后来蒸馏生成式的小模型，这种蒸馏方法实际上就是所谓的Sequence KD。

2025-02-09 21:36:26 880 2

原创 OmniQuant-目前最优的LLM PTQ量化算法

LLMs已经彻底改变了自然语言处理任务。然而，它们的实际部署受到其巨大的内存和计算需求的阻碍。尽管最近的后训练量化（PTQ）方法在减少LLM的内存占用和提高计算效率方面取得了有效成果，但它们手工制作的量化参数导致了性能低下，并且无法处理极低比特量化。为了解决这个问题，我们引入了一种全方位校准量化（OmniQuant）技术。它在保持PTQ的计算效率的同时，在多样化的量化设置中取得了良好的性能，通过有效优化各种量化参数。

2025-02-09 17:42:30 1129

原创论文笔记（LLM+蒸馏）：Distilling step-by-step+代码分析

部署大型语言模型(llm)具有挑战性，因为对于实际应用而言，它们的内存效率低下且计算密集型。作为回应，研究人员通过对人类标签进行微调或使用llm生成的标签进行蒸馏来训练较小的特定任务模型。然而，微调和蒸馏需要大量的训练数据才能达到与llm相当的性能。本文提出逐步蒸馏，作为一种新机制可以(a)训练优于llm的更小的模型；(b)比微调或蒸馏所需的更少的训练数据。本方法提取了LLM的rationales，作为在多任务框架中训练小型模型的额外监督。

2025-02-09 17:38:06 1066 1

原创 PDF文档解析（OCR）：Nougat

这里，研究人员使用Swin Transformer Swin，可将图像分割成固定大小的非重叠窗口，并应用一系列自注意力层来聚合这些窗口的信息。具体来说，Nougat是一个编码器-解码器的Transformer架构，允许端到端的训练，主要建立在Donut架构之上。Meta团队表示，Nougat是将PDF研究论文转换为结构化的机器可读文本，从而改善科学知识获取的一种有前途的解决方案。公式和表格的性能较低，略高于75%，但仍然比GROBID等替代品可靠得多，后者的数学公式准确率略低于11%。

2025-02-09 17:25:27 90

原创【解读大模型（LLM）的token】

tokenization可以帮助模型处理不同的语言、词汇表和格式，并降低计算和内存成本，还可以通过影响token的意义和语境来影响所生成文本的质量和多样性。未来的进步可能集中于解决tokenization的局限性，改进 OOV 处理，并适应新兴语言和文本格式的需要。一般地，token可以被看作是单词的片段，不会精确地从单词的开始或结束处分割，可以包括尾随空格以及子单词，甚至更大的语言单位。随着继续探索token的世界，我们将彻底改变机器理解和生成文本的方式，推动自然语言处理的边界，促进各个领域的创新应用。

2025-02-09 17:17:57 74

《Approaching (Almost) Any Machine Learning Problem》

中文小说短句序列文本复述数据集

时间序列预测-第六届全国工业互联网数据创新应用大赛：工业生产反应装置的建模预测

clustering-test-data

stop-words.txt

strawberry-perl-5.10.1.0.msi

strawberry-perl-5.10.1.0.msi

英文单词拼写混淆集：spell-errors.txt

带有词频的词典库：vocab.txt

空空如也