
大模型推理优化
文章平均质量分 87
推理优化篇
山顶夕景
互联网大厂AI算法工程师。实践出真知。
展开
-
【LLM】增强大模型推理能力的四种范式
增强大模型推理能力的四种范式:推理时间扩展、纯强化学习(RL)、SFT+RL、蒸馏(distillation) 。其实这几种方法本质就是SFT+RL:低成本做事就直接推理时间扩展,稍微肯付出成本就蒸馏SFT,顺便搞点高质量COT SFT数据高级点就先用GRPO等RL学习推理能力,在前面也能加个冷启动SFT。但RL在较小模型可能不奏效最简单的方式其实是推理时间扩展或者蒸馏,但是这个其实的成功率,其实还是依赖于基座模型本身。小模型直接进行RL未必奏效,将DeepSeek-R1-Zero中相同的纯RL方法原创 2025-02-23 16:48:09 · 1089 阅读 · 0 评论 -
【LLM】Deepseek R1模型之多阶段训练
# note - 创新点:deepseek r1通过纯强化学习(RL)自主激发模型的推理能力,并结合蒸馏技术实现高效迁移- R1模型 - DeepSeek-R1-Zero 作为纯强化学习的成功实践,证明了大语言模型在无监督数据下通过强化学习发展推理能力的可能性; - DeepSeek-R1 在此基础上,借助冷启动数据和多阶段训练,进一步提升了模型性能,达到与 OpenAI-o1-1217 相媲美的水平,且在蒸馏小模型上也取得了优异成果。- 蒸馏模型贡献:开源DeepSeek-R1-Zero、Dee原创 2025-01-28 00:19:59 · 6351 阅读 · 0 评论 -
【LLM】MOE混合专家大模型综述(重要模块&原理)
定义expert类:由线性层和激活函数构成- 定义MOE类: - self.num_experts:专家的数量,也就是上面提到的“并列线性层”的个数,训练后的每个专家的权重都是不同的,代表它们所掌握的“知识”是不同的。 - self.top_k:每个输入token激活的专家数量。 - self.expert_capacity:代表计算每组token时,每个专家能被选择的最多次数。 - self.gate:路由网络,一般是一个线性层,用来计算每个专家被选择的概率。 - self.experts:实原创 2025-04-30 23:43:21 · 847 阅读 · 0 评论 -
【Agent】MCP协议 | 用高德MCP Server制作旅游攻略
MCP (Model Context Protocol) 代表了 AI 与外部工具和数据交互的标准建立。MCP 的本质:它是一个统一的协议标准,使 AI 模型能够以一致的方式连接各种数据源和工具,类似于 AI 世界的"USB-C"接口。 - 它能够在 LLM/AI Agent 与外部资源之间实现无缝、安全且可扩展的数据交换。MCP 采用客户端-服务器架构,其中 ==MCP 主机(AI 应用)与 MCP 服务器(数据/工具提供方)进行通信==。开发者可以使用 MCP 构建可复用、模块化的连接器,并利用针对主原创 2025-04-30 21:43:36 · 632 阅读 · 0 评论 -
【LLM】Qwen3模型训练和推理
在预训练方面,Qwen3 的数据集相比 Qwen2.5 有了显著扩展。Qwen2.5 预训练了 18 万亿个 token,而 Qwen3 使用的 token 数量几乎是 Qwen2.5 的两倍,约有 36 万亿个 token,涵盖 119 种语言和方言。为了构建这个庞大的数据集,我们不仅从网络收集数据,还从类似 PDF 的文档中收集数据。我们使用 Qwen2.5-VL 从这些文档中提取文本,并使用 Qwen2.5 来提升提取内容的质量。为了增加数学和代码数据量,我们使用 Qwen2.5-Math 和 Qwe原创 2025-04-29 20:57:38 · 1057 阅读 · 0 评论 -
【LLM训练框架】deepseed之autoTP+zero1训练框架
deepseed新发布了一个训练方式autoTP,deepseed就是玩zero的,zero是一种配合DP省显存的方式:- zero1是优化器被打散,- zero2是梯度,- zero3直接是模型参数,如果手里卡有限,显存不够,一般是采用==FSDP+zero3==来训练才能装下比较大的模型,但是zero3因为能拆的都拆了,所以一通信就all2all,计算全被通信吃了,MFU就非常小,虽然是DP但是训练速度特别慢,于是deepseed就把autoTP+zero1这个方案提出来了,TP的优势是拆模型原创 2025-04-15 11:52:14 · 193 阅读 · 0 评论 -
【LLM】DeepResearch系列(Search-R1、Search-o1、R1-Searcher)
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning(Search-R1:利用强化学习训练LLM进行推理并利用搜索引擎)。这篇文章是关于如何训练大型语言模型(LLMs)有效地利用搜索引擎来增强其推理和文本生成能力。核心创新:允许LLM在推理过程中自主决定何时以及如何进行搜索。论文提出了一个名为SEARCH-R1的框架,该框架仅仅通过强化学习(RL)让LLM学习如何在逐步推理原创 2025-04-06 18:25:20 · 1049 阅读 · 0 评论 -
【图解Agent】A Visual Guide to LLM Agents
推理Reasoning增强推理能力:(1)通过提示工程,可以创建LLM应该遵循的推理过程示例。提供示例(也称为少量样本提示)是引导LLM行为的好方法。Chain-of-thought也可以通过零样本提示启用,而无需任何示例,只需简单地说“让一步一步思考”。(2)在训练LLM时,可以给它足够数量包含类似思维示例的数据集,或者LLM可以发现自己的思维过程。一个很好的例子是DeepSeek-R1,其中使用奖励来引导思维过程的使用。:研原创 2025-03-23 13:45:24 · 682 阅读 · 0 评论 -
【LLM】文心大模型4.5、文心大模型X1、文心4.5 Turbo模型
# 一、文心大模型4.5模型链接:https://yiyan.baidu.com- 文心大模型4.5是百度自主研发的新一代原生多模态基础大模型,通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升。技术亮点:◎ FlashMask动态注意力掩码:加速大模型灵活注意力掩码计算,有效提升长序列建模能力和训练效率,优化长文处理能力和多轮交互表现;◎ 多模态异构专家扩展技术:根据模态特点构建模态异构专家,结合原创 2025-03-16 12:02:47 · 678 阅读 · 0 评论 -
【LLM】kimi 1.5模型架构和训练流程
语言数据涵盖五个领域:英语、中文、代码、数学推理和知识。多模态数据,包括图像描述、图文交错[^1]、OCR数据、知识以及问答数据集,使我们的模型能够获得视觉 - 语言能力。严格的质量控制确保了整个预训练数据集的相关性、多样性和平衡性。## SFT训练100w文本sft数据(任务具体分布见图)和100w多模态sft数据(没说具体分布,光列任务),通过一些 infra 的优化,先训 32k,再训 128k。- 非推理任务:包括问答、写作和文本处理,首先通过人工标注构建了一个种子数据集。这个种子数据集用原创 2025-03-09 15:35:22 · 859 阅读 · 0 评论 -
【LLM】阿里QwQ推理模型
QwQ-32B模型:https://huggingface.co/Qwen/QwQ-32B使用RL训练,没使用传统的奖励模型,使用数学答案检查器、代码执行器等规则奖励。指标和ds基本持平:# Reference[1] https://huggingface.co/Qwen/QwQ-32B[2] https://qwenlm.原创 2025-03-09 14:57:52 · 263 阅读 · 0 评论 -
【LLM】From System 1 to System 2 推理LLM综述
(1)结构搜索:- 推理大语言模型旨在通过模仿人类推理的深思熟虑和系统性来实现高精度和深度。然而,尽管最近取得了进展,当前的基础大语言模型在解决复杂推理任务时仍面临固有的局限性。这些局限性源于它们缺乏模拟环境状态的内部世界模型,无法预测推理路径的长期结果,以及无法根据未来状态或奖励迭代改进推理步骤。- 蒙特卡洛树搜索(MCTS)通过提供一个结构化框架来系统地探索和评估推理路径,有效地解决了这些挑战。它通过构建一个推理树来操作,其中每个节点代表一个推理状态,行动通过考虑潜在的下一步来扩展树。通过模拟未来状原创 2025-03-02 15:29:05 · 737 阅读 · 0 评论 -
【LLM】DeepSeek开源技术汇总
一、FlashMLA:MLA解码内核二、DeepEP:针对MoE和EP的通信库三、DeepGEMM:FP8 通用矩阵乘法(GEMM)库四、DualPipe、EPLB:双向管道并行算法五、3FS:一种高性能分布式文件系统原创 2025-02-28 22:50:36 · 1340 阅读 · 0 评论 -
【LLM】R1复现项目(SimpleRL、OpenR1、LogitRL、TinyZero)持续更新
(1)未来的工作需亟待解决:支持大规模 RL 训练(PPO、GRPO 等)的开源基础框架用于稳定训练的 GRPO 训练超参的自动化调优RL 训练数据的配比(难度、领域、任务等)基于 Instruct 模型训练 R1 时,高质量 long CoT 的数据获取合适的惩罚函数设计以保证 CoT 思考链质量不退化(2)应用在业务落地时,需要考虑:模型在给定的 prompt 下,结合预训练的基本知识能否正确给出正确的推理结果。任何业务中的「潜规则」都需要显式地定义在 prompt 中,并尽可能避免与原创 2025-02-23 02:02:52 · 3110 阅读 · 0 评论 -
【MLLM】GRPO在多模态LLM的应用
# note- VLM-R1: A stable and generalizable R1-style Large Vision-Language Model。域外数据集上性能比SFT要好- Open-R1-Video视频理解模型:为视频理解任务引入R1范式,开源训练代码和数据,用视频、查询和答案,使用GRPO训练,提升模型推理能力@[toc]# 一、VLM-R1: A stable and generalizable R1-style Large Vision-Language Model原创 2025-02-23 01:04:35 · 1094 阅读 · 0 评论 -
【LLM】O1/R1系列LLM数据篇
关于思维链推理的10开源数据集:目前开源的数据主要有如下:1、Magpie-Reasoning-V2数据集,其中包含DeepSeek-R1生成的250K思路链推理样本,这些示例涵盖了数学推理、编码和一般问题解决等各种任务。https://huggingface.co/datasets/Magpie-Align/Magpie-Reasoning-V2-250K-CoT-Deepseek-R1-Llama-70B2、Dolphin-R1,包含80万个样本的数据集,其中的数据来自DeepSeek-R1和原创 2025-02-09 23:07:18 · 1060 阅读 · 0 评论 -
【LLM】DeepSeek R1训练成本降低分析篇
DeepSeek-R1 在DeepSeek-R1-Zero基础上,借助冷启动数据和多阶段训练(==增强推理过程可读性、增强面向通用指令的推理能力==),进一步提升了模型性能@[toc]# 一、DeepSeek R1训练流程回顾- DeepSeek-R1-Zero 作为纯强化学习的成功实践,证明了大语言模型在无监督数据下通过强化学习发展推理能力的可能性;- DeepSeek-R1 在此基础上,借助冷启动数据和多阶段训练(==增强推理过程可读性、增强面向通用指令的推理能力==),进一步提升了模型性原创 2025-02-09 17:09:27 · 761 阅读 · 0 评论 -
字节LLM未来五大研究方向
Seed Edge 5 大长期研究方向,不会像迭代模型那样追求快速出成果: 1、 下一代推理:探索更高效且更通用、提升模型推理能力的方法。 2、 下一代感知:找到统一生成和理解表示的方法,表示和压缩真实世界,构建 “世界模型”。 3、 软硬一体的模型设计:从软硬一体出发,探索 Transformer+GPU 之外的模型设计,发挥下一代硬件的能力。 4、 下一代范式:在反向传播、Transformer 架构、预训练 + 对齐的模式之外,探索更高效的模型结构和学习方法。 5、 下一代 Sca原创 2025-02-23 01:09:18 · 229 阅读 · 0 评论 -
【LLM-RL】强化对齐之GRPO算法和微调实践
论文:DeepSeekMath:PushingtheLimitsofMathematicalReasoninginOpenLanguageModels(https://arxiv.org/pdf/2402.03300)GRPO在DeepSeekV2中采用了,GRPO在训练过程中,不需要ValueModel,因此也能够减少RL训练过程中的资源消耗。原创 2025-01-19 13:54:18 · 2915 阅读 · 0 评论 -
【LLM】为何DeepSeek 弃用MST却采用Rejection采样
在提升大语言模型(LLM)推理能力时,拒绝采样(Rejection Sampling)和 马尔可夫搜索树(Markov Search Tree)是两个超强的技术。 # 拒绝采样 Rejection sampling🎯1. 概念模型生成多个候选答案,然后过滤掉不符合条件的,只保留“好”的结果。2. 原理- LLM 生成一堆候选答案(比如推理路径或解决方案)- 通过评分函数(比如正确性、逻辑性)评估每个候选答案。- 不符合条件的答案被拒绝,最终选出最好的一个。3. 优点- 简单实现起来超原创 2025-02-05 23:12:53 · 1665 阅读 · 0 评论 -
【LLM】DeepSeek-R1-Distill-Qwen-7B部署和open webui
# note- DeepSeek-R1-Distill-Qwen-7B 的测试效果很惊艳,CoT 过程可圈可点,25 年应该值得探索更多端侧的硬件机会。@[toc]# 一、下载 Ollama访问 Ollama 的官方网站 https://ollama.com/library/deepseek-r1, 根据系统提示下载适合自己电脑的版本。比结果奖励模型(ORM)更适合复杂的推理任务,因为它不仅奖励最终结果,还奖励中间步骤。试用链接:https://huggingface.co/spaces/Qwen/QwQ-32B-preview。官方博客:https://qwenlm.github.io/zh/blog/qwq-32b-preview/原创 2025-01-18 23:25:06 · 1210 阅读 · 0 评论 -
【LLM】deepseek v3模型和MiniMax-01的对比
#note-DeepSeek-V3是一个混合专家(MoE)语言模型,整体参数规模达到671B,其中每个token激活的参数量为37B。评估结果表明,DeepSeek-V3在性能上超越了其他开源模型,并能够与主流闭源模型相媲美。-基于DeepSeek-V2,团队采用了多头潜在注意力(MLA)和DeepSeekMoE架构,以实现高效推理和经济的训练。模型在延续MLA和DeepSeekMoE架构优势的基础上,创新性地提出了无辅助损失负载均衡策略,并引入多token预测训原创 2025-01-04 16:17:50 · 1604 阅读 · 0 评论 -
【LLM】GLM-Zero初版模型GLM-Zero-Preview和o1推理
#一、深度推理模型GLM-ZeroGLM-Zero的初代版本GLM-Zero-Preview,这是智谱首个==基于扩展强化学习技术训练==的推理模型智谱-深度推理模型GLM-Zero-预览版上线使用地址:https://chatglm.cn/share/FRAWwGLM-Zero-Preview专注于增强模型推理能力,擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比,GLM-Zero-Preview在不显著降低通用任务能力的情况下,在专家任务能力方面表现大幅提升。其原创 2025-01-18 22:48:37 · 408 阅读 · 0 评论 -
【LLM-Agent】Building effective agents和典型workflows
- Anthropic的工程经验: - 大道至简,尽量维护系统的简洁; - 尽量让过程更加透明(因为你依赖的是LLM的决策,如果只看输出不看过程,很容易陷入难以debug的情况); - 对LLM需要调用的工具,尽可能地好好进行工具说明和测试。@[toc]# 一、构建块、工作流和Agentworkflows是人来定义明确的规则和流程,然后中间步骤由LLM来执行;但是 agents 是为了更加灵活地处理某些任务,且决策是由模型决定的,而不是预定义的规则。当需要更多复杂性时,工作流可以为明原创 2025-01-04 21:11:53 · 1288 阅读 · 0 评论 -
【LLM工程篇】deepspeed | Megatron-LM | fasttransformer
当前比较主流的一些分布式计算框架 DeepSpeed、Megatron 等,都在降低显存方面做了很多优化工作,比如:量化、模型切分、混合精度计算、Memory Offload 等文章目录note大模型参数计算1. 模型参数单位2. 训练显存计算3. 推理显存计算大模型的分布式训练1. 数据并行2. 模型并行3. 流水并行4. 混合并行模型量化DeepSpeed ZeRO:零冗余优化DeepSpeed Chatfastertransformer:LLM推理加速引擎Megatro原创 2023-09-19 00:24:34 · 5473 阅读 · 0 评论