不打灰的小刘-优快云博客

原创 Thinking Preference Optimization

监督微调（SFT）一直是增强相对较小语言模型（LLM）的长期思维链（CoT）推理的有效方法，通过用来自更大LLM的长期CoT响应来微调它们。为了持续提高推理能力，我们可以要么收集新的高质量长期CoT推理SFT数据，要么反复在现有的SFT数据集上训练。然而，获取新的长期CoT SFT数据成本高昂且有限，而反复训练往往会导致性能停滞或下降。为了进一步利用SFT数据提升性能，我们提出了思维偏好优化（ThinkPO），这是一种简单而有效的方法，在无需新的长期CoT响应的情况下增强长期CoT推理。

2025-02-21 09:44:06 749

原创 Steel-LLM:From Scratch to Open Source -- A Personal Journey in Building a Chinese-Centric LLM

Steel-LLM 是一个以中文为中心的从零开始开发的语言模型，旨在在有限的计算资源下创建一个高质量、开源的模型。该项目于2024年3月启动，目标是基于大规模数据集训练一个拥有10亿参数的模型，优先考虑透明度和实用见解的共享，以帮助社区中的其他人。训练过程主要侧重于中文数据，包含一小部分英文数据，通过提供更详细和实用的模型构建历程来弥补现有开源LLM的不足。Steel-LLM在CEVAL和CMMLU等基准测试中表现出色，超越了来自更大机构的早期模型。

2025-02-13 22:09:22 919

原创 2025年值得推荐的10款AI阅读助手工具：从文献管理到技术动态的全方位提升

从文献管理到技术动态跟踪，AI阅读助手正在重塑知识获取方式。若需快速跟进学术前沿，的论文精读功能值得优先体验；而多文档处理场景下，AI智读与ChatDOC的组合能显著提升效率。更多工具评测可参考月光AI博客与迪娜学姐的科研指南。

2025-02-08 21:51:55 7111

原创 Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

近年来，基于文本的大型语言模型（LLMs）在GPT系列和o1模型等领域的最新进展，展示了在训练时间和推理时间计算量上的扩展效果。然而，目前利用LLMs的顶尖TTS系统往往是多阶段的，需要单独的模型（例如在LLM之后使用扩散模型），这复杂了在训练或测试期间是否扩展特定模型的决策。本研究做出了以下贡献：首先，我们探索了语音合成中训练时间和推理时间计算量的扩展。

2025-02-08 08:58:40 836

原创 FP8量化技术详解：原理、优势及在LLM中的应用

在大语言模型（LLM）训练过程中，模型量化是提升训练效率的重要技术手段。FP8（8位浮点数）量化因其独特的数值表示特性，在保持模型性能的同时，有效降低了计算资源消耗。本文将深入探讨FP8量化的技术原理及其在LLM训练中的应用优势。Int8（8位整数）FP8（8位浮点数）FP8采用科学计数法的形式表示数值：让我们通过具体示例来理解FP8如何表示不同数值。0.0703125的表示：3.2 不同数值区间的精度特性在不同的数值区间，FP8表示的相邻数值间隔是不同的：这种特性使得FP8在不同数值范围提供不

2025-01-14 22:34:11 2224

原创 ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing

稀疏激活的专家混合模型（MoE）被广泛采用以扩大模型容量而不增加计算预算。然而，传统的TopK路由器以不连续、非可微的方式训练，这限制了它们的性能和可扩展性。为了解决这一问题，我们提出了ReMoE，这是一种全可微的MoE架构，它提供了一个简单而有效的替代方案，用于传统的TopK+Softmax路由，使用ReLU作为路由器。我们进一步提出了调节路由器稀疏性的方法，同时在专家之间平衡负载。ReMoE的连续性使其能够高效地在标记和层之间动态分配计算，同时也表现出领域专长。

2024-12-25 23:05:15 1350

原创 RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

监督微调（SFT）在适应特定领域或任务的大型语言模型（LLMs）中扮演着至关重要的角色。然而，通过实证实验表明，在实际应用中收集的数据不可避免地含有噪声，这给模型在下游任务上的性能带来了重大挑战。因此，迫切需要一种噪声鲁棒的SFT框架来增强模型在下游任务上的能力。为了应对这一挑战，我们引入了一种鲁棒SFT框架（RobustFT），该框架对下游任务数据进行噪声检测和重新标记。在噪声识别阶段，我们采用了一种多专家协作系统，结合推理增强模型来实现卓越的噪声检测。

2024-12-25 09:41:19 643 1

原创 SCOPE: Optimizing Key-Value Cache Compression in Long-context Generation

键值（KV）缓存已成为LLMs在长文本生成中的瓶颈。尽管在这个领域已经做了很多努力，但解码阶段的优化通常被忽视。然而，我们认为这种优化至关重要，尤其是在以下两个观察的基础上进行长输出生成任务：(i) 预填充阶段过度的压缩，需要特定的完整上下文，这损害了对推理任务的 comprehension；(ii) 在具有长输出的推理任务中，频繁访问的数据项（heavy hitters）发生偏差。因此，我们引入了SCOPE，这是一个简单而高效的框架，在预填充和解码阶段分别执行KV缓存优化。

2024-12-23 23:01:34 1388

原创 Qwen2.5 Technical Report

在本报告中，我们介绍了Qwen2.5，这是一系列旨在满足多样化需求的大型语言模型（LLMs）。与之前版本相比，Qwen 2.5在预训练和后训练阶段都得到了显著改进。在预训练方面，我们将高质量预训练数据集的规模从之前的7000亿个标记扩展到了1800亿个标记。这为常识、专家知识和推理能力提供了坚实的基础。在后训练方面，我们实施了超过100万个样本的复杂监督微调和多阶段强化学习。后训练技术增强了人类偏好，显著提高了长文本生成、结构数据分析和分析指令的能力。

2024-12-21 09:57:20 2325

原创 QAnything源码学习

官方架构图如下：Query理解检索召回重排大模型生成数据入库下面就从以上几个模块分别看看对应的源码讲源码之前还是想先讲讲这个项目的目录结构，这样可能会更方便理解一点。主逻辑源码主要在qanything_kernel中主逻辑源码分布所有的配置都在这里主要提供了一些必要的中间组件，不涉及主流程逻辑，但是为主流程提供了可用的各种组件。包括存储、向量化、大模型、重排功能从目录名就可以看出来，这是核心模块，是RAG全流程的具象化。着重关注和两个文件。

2024-12-19 22:36:08 1679 1

原创 Compressed Chain of Thought: Efficient Reasoning Through Dense Representations

链式思维 (CoT) 解码能够提高语言模型的推理性能，但代价是解码过程中的高生成延迟。最近的提议探索了沉思标记的变体，我们引入这个术语来指代推理过程中使用的特殊标记，以允许额外的计算。先前的工作考虑了从一组离散嵌入中提取的固定长度序列作为沉思标记。在这里，我们提出压缩链式思维 (CCoT)，这是一种生成内容丰富且连续的、可变序列长度的沉思标记的框架。生成的沉思标记是对显式推理链的压缩表示，我们的方法可以应用于现成的解码器语言模型。

2024-12-19 09:28:59 667

原创 Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity

文本到视频生成增强了内容创作，但计算量极大：扩散Transformer（DiT）的计算成本与像素数的平方成正比。这使得分钟长度的视频生成变得极为昂贵，限制了大多数现有模型只能生成10-20秒长度的视频。我们提出了一种线性复杂度的文本到视频生成（LinGen）框架，其成本与像素数线性相关。LinGen首次使单GPU上生成高分辨率分钟长度的视频成为可能，而不会降低质量。它用称为MATE的线性复杂度块替换了计算主导的二次复杂度块——自注意力，MATE块由一个MA分支和一个TE分支组成。

2024-12-17 21:25:25 1117

原创 Fully Open Source Moxin-7B Technical Report

最近，大型语言模型 (LLM) 经历了显著的转变，其普及度和能力都迅速提高。引领这一发展的是 GPT-4 和 GPT-o1 等专有 LLM，由于其卓越的性能和多功能性，它们已在 AI 社区引起广泛关注。与此同时，LLaMA 和 Mistral 等开源 LLM 也为 LLM 日益增长的普及做出了巨大贡献，因为这些模型易于定制和部署在各种应用中。尽管开源 LLM 为创新和研究带来了前所未有的机遇，但 LLM 的商业化也引发了对透明度、可重复性和安全性的担忧。

2024-12-15 22:33:45 1018

原创 Phi-4 Technical Report

我们推出了phi-4，这是一个拥有140亿参数的语言模型，其训练过程的核心是数据质量。与大多数语言模型不同，这些模型的预训练主要基于有机数据源，如网页内容或代码，而phi-4在整个训练过程中战略性地整合了合成数据。尽管Phi家族中的先前模型主要提炼了教师模型（特别是GPT-4）的能力，但phi-4在STEM领域的问答能力上显著超越了其教师模型，这表明我们的数据生成和后训练技术超越了提炼。

2024-12-14 10:30:29 1695

原创 LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation

近期图像生成模型的发展使得个性化图像创作成为可能，用户既可定义主题（内容）也可选择风格。先前的工作通过基于优化的方法合并相应的低秩自适应参数（LoRAs）来实现个性化，但这些方法计算量大，不适合在资源受限的设备如智能手机上实时使用。为了解决这个问题，我们引入了LoRA.rar方法，它不仅提高了图像质量，而且在合并过程中实现了超过4000倍的显著加速。

2024-12-12 22:20:06 1625

原创 Toxicity of the Commons: Curating Open-Source Pre-Training Data

开源大型语言模型在研究人员和实践者中越来越普及。虽然开放权重模型取得了显著进展，但开放训练数据这一做法尚未被领先的开放权重模型创作者所采纳。与此同时，研究人员正在努力使语言模型更安全。我们提出了一种数据整理流程，旨在通过训练在公共领域数据上训练的模型来减少有害输出的产生。处理公共领域数据存在独特的挑战，因为这些来源在形式和内容上都与网络文本不同。许多来源是历史文件，是光学字符识别（OCR）的结果。因此，目前最先进的毒性过滤方法往往对开放数据模型不可行或不恰当。

2024-12-11 21:31:33 897

原创 TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

语言模型的后训练应用于提升各种最近语言模型的行为并解锁新技能，但公开的后训练应用方法落后于专有方法。后训练的基础数据和配方既是这个谜题中最重要的部分，同时也是最缺乏透明度的部分。为了弥合这一差距，我们推出了T“ULU 3，这是一系列完全开放的先进后训练模型，包括其数据、代码和训练配方，作为现代后训练技术的全面指南。

2024-12-10 22:03:35 1421

原创 TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters

由于在各个领域都表现出色，Transformer已成为基础模型中主要的架构。然而，扩展这些模型的巨大成本仍然是一个重要的问题。这个问题主要源于它们依赖于线性投影中固定数量的参数。当引入架构修改（例如，通道维度）时，整个模型通常需要从头开始重新训练。随着模型规模的不断增长，这种策略导致计算成本越来越高，并变得不可持续。

2024-12-08 15:41:36 995

原创 KV Shifting Attention Enhances Language Modeling

当前的大规模语言模型主要基于仅解码的结构化Transformer，它们具有强大的上下文学习（ICL）能力。普遍认为，其ICL能力的重要基础是归纳头机制，这至少需要两层注意力。为了更高效地实现模型的归纳能力，我们重新审视了归纳头机制，并提出了KV移位注意力。我们理论上证明了KV移位注意力可以降低模型对归纳头机制深度和宽度的要求。我们的实验结果表明，KV移位注意力有助于学习归纳头和语言建模，这从玩具模型到超过10B参数的预训练模型，都带来了更好的性能或更快的收敛速度。

2024-12-07 20:46:35 1089

原创基于自动反馈的大语言模型纠错策略综述

本文“Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies”主要探讨了大语言模型（LLMs）的自我纠正策略，具体内容如下

2024-11-18 20:21:14 1391

原创 Python如何创建异步上下文管理器

这个示例展示了如何使用创建一个异步上下文管理器，并展示了在上下文管理器内部和外部的调用顺序。通过这种方式，可以确保在异步代码中正确管理资源的获取和释放。

2024-10-10 22:18:18 1193

原创 Python实大模型文章的RSS订阅采集器

从YAML配置文件读取配置信息从多个源获取RSS订阅解析订阅并提取相关信息基于相关性过滤内容将收集到的数据存储到MySQL数据库中通过这个项目，我们实现了一个功能完整的RSS订阅采集器。它不仅可以自动收集多个来源的RSS内容，还能进行内容过滤和存储。通过使用日志记录、错误处理和批量操作等最佳实践，我们确保了程序的可靠性和效率。你可以基于这个基础实现，根据自己的需求进行定制和扩展，比如添加更多的数据源、实现更复杂的过滤逻辑，或者集成到其他系统中。

2024-10-09 23:19:08 1579

原创使用 LLM 实现高质量技术文档翻译：我们的实践与经验

在开源技术社区中，大量优秀的文档仍然只有英文版本，这对中文用户造成了一定的使用障碍。为了让更多中文开发者能够方便地使用这些技术，我们开发了一套基于大语言模型的文档翻译流程，并已经成功翻译了vllm、sglang等中文文档。本文将详细介绍我们的翻译方法、技术实现以及已完成的翻译项目

2024-10-07 23:59:10 1210

原创大模型训练显存需求分析指南：从SFT到RLHF的实践之路

随着大模型技术的快速发展，越来越多的研究者和开发者开始尝试自己训练或微调大模型。然而，大模型训练最大的门槛之一就是算力资源，特别是GPU显存的需求。本文将从实践角度出发，详细分析大模型训练中的显存需求，帮助读者更好地规划自己的训练资源。

2024-10-06 14:22:20 3853

原创分享一个找到高质量大模型技术文章的好去处

最近在使用一个叫LlamaFactory的技术文章聚合站点，觉得挺不错，想分享下使用体验。这个站点主要收集了来自知乎、优快云、微信公众号等渠道的大模型技术文章，内容都很"干"，基本都是实打实的技术经验分享

2024-10-05 12:12:26 614

原创一站式大模型API速查宝典：为开发者整理的多平台调用资源

在大模型百花齐放的今天，开发者往往需要花费大量时间在不同平台间切换，查找文档、对比接口。为了解决这个痛点，我们创建了一个集成了各大模型平台API信息的速查资源。这包括了从OpenAI到Gemini，从百川智能到腾讯混元等主流大模型平台的调用信息，全部集中在一处，方便开发者快速查找和使用。

2024-10-04 22:45:03 784

原创 Cursor AI编辑器：开发效率提升利器

通过llamafactory.cn的开发经历，我体会到Cursor配合v0.dev真的巨提升开发效率。它不仅节省了大量编码时间，还提供了高质量的代码建议和智能的问题解决方案。我强烈推荐尝试这种开发方式当然，工具终归是工具，关键还是要不断提升自己的编程能力和系统设计能力。AI工具能够帮助我们更快地实现想法，但不能替代对技术的深入理解。希望这篇文章能够帮助大家在实际项目中更好地利用AI工具，提升开发效率。

2024-10-04 11:14:35 2108

原创如何使用VSCode调试大模型训练代码

在开发和调试大模型训练代码时，使用print语句进行调试往往效率低下且容易遗漏重要信息。本文将介绍三种使用VSCode进行交互式debug的方法，让你的调试过程更加高效和精确。

2024-10-03 19:06:25 2704

原创快速构建集成ChatGPT的智能聊天机器人后端服务：FastAPI、Django与Flask的最佳实践

在当今快速发展的技术领域，集成大模型（如ChatGPT）为后端服务提供了前所未有的可能性。本文将探讨使用和快速构建高效的智能后端服务的关键技术，帮助开发者在构建过程中提高效率和可维护性。完整代码见：https://www.llamafactory.cn。

2024-10-01 23:02:04 821 1

原创两个人+AI做了个AI工具平台

最近和我的小伙伴2个人做了一个网站：LlamaFactory - AI开发者的高效工具平台地址：https://www.llamafactory.cn先说下基本情况，我主要擅长自然语言处理。我的同伴擅长前端、运维，后端接口写得非常非常少。我同伴。

2024-10-01 11:10:05 1021

原创如何使用大模型高效生产|蒸馏数据[含完整代码]

大模型出现之前我们的训练数据大都依赖人工标注、开源数据以及从线上数据中构造合适的监督数据，如果开源数据不太符合我们的业务需求（大部分情况下无法直接满足要求），且已有的线上数据也没办法抽取出符合要求的监督数据，这个时候恐怕只能依赖于人工标注了，但是人工标注又非常的耗费人力和时间。大模型出现后给我们提供了新的选择，我们可以通过构造高质量的prompt使用大模型给我们生产数据。原理其实很简单，所以本次分享的重点其实不在于原理，主要是想将本人工作中经常使用的一套代码分享出来，供大家直接使用。

2024-09-27 22:46:46 2698

原创混合精度训练数据类型详解

1. 不同操作使用的数据类型a) 模型参数和激活值: FP16原因: 减少内存使用，允许更大批量或更大模型优势: FP16只需FP32一半的内存空间b) 梯度计算: FP16原因: 加速反向传播，减少内存使用注意: 需要使用损失缩放防止梯度消失c) 主要计算(如矩阵乘法): FP16原因: 提高计算速度，减少内存带宽需求优势: 现代GPU对FP16运算有硬件级优化d) 关键操作(损失计算和权重更新): FP32原因: 保持数值稳定性和训练精度重要性: 这些操作对训练

2024-09-27 11:29:21 499

原创 DeepSpeed ZeRO-3 内存估算

DeepSpeed ZeRO-3 提供了灵活的内存优化选项，允许在不同的硬件配置下高效训练大型模型。理解各参数的作用及其相互影响对于优化训练过程至关重要。在实际应用中，需要根据具体的模型大小、硬件资源和训练需求来选择最合适的配置。

2024-09-26 22:07:43 1884

原创在Linux上部署FastAPI和Flask应用的最佳实践

在Web开发领域，选择合适的框架和部署策略对应用的性能和可维护性至关重要。本文将详细介绍如何在Linux系统上部署FastAPI和Flask应用，使用Gunicorn作为WSGI服务器，并用Nginx作为反向代理。这种设置适合小型到中型的生产环境，提供了良好的性能、安全性和可扩展性。

2024-09-26 22:03:44 1049 1

budahui的博客