- 博客(77)
- 收藏
- 关注
原创 六万字长文!一次性说清 LLM 的后训练技术
本文综述了大型语言模型(LLMs)的后训练技术(PoLMs),系统梳理了其在微调、对齐、推理、效率和集成适应五个核心范式的发展。文章首次全面整合了从2018年ChatGPT基础对齐到2025年DeepSeek-R1创新推理的演进历程,提出结构化分类框架,涵盖监督微调、强化学习对齐、自精炼推理等方法。研究强调大型推理模型(LRMs)在提升领域适应性和逻辑能力方面的突破,同时指出可扩展性、伦理对齐等开放挑战,为未来研究建立理论框架,推动构建更精准、稳健的多功能语言模型。 (摘要严格控制在150字内,涵盖研究背景
2025-07-23 13:39:45
1039
原创 从 DeepSeek-V3 到 Kimi K2:八种现代大语言模型架构设计
摘要: 本文对比了2025年主流大语言模型(LLM)的架构演进,聚焦于DeepSeek V3/R1和OLMo 2的关键创新。DeepSeek V3采用**多头潜在注意力(MLA)压缩KV缓存以提升推理效率,并通过混合专家(MoE)**架构(含共享专家)实现参数高效利用(6710亿参数中仅激活37亿)。OLMo 2则以其开源透明性著称,虽性能非顶尖但为LLM开发提供了清晰蓝图。文章指出,尽管近年模型在位置编码、注意力机制(如GQA替代MHA)和激活函数(SwiGLU取代GELU)上有改进,但核心Transfo
2025-07-22 10:43:16
866
原创 ACL 2025 Oral!稀疏插值混合专家SIMoE,大模型升级再造的自动化专家发现框架
香港城市大学博士生陈胜庄将于7月26日分享《SIMoE:稀疏插值混合专家框架》,提出创新的大模型升级方案。该研究针对现有稀疏混合专家架构需人工选择专家位置、知识碎片化等问题,通过结构化稀疏优化自动发现神经元级专家参数子集,结合共享增量参数与掩码正交惩罚,在减少30%训练内存的同时提升跨任务性能(SNI基准提升1.6-2.5%,安全评测提升10%)。报告将解析传统SMoE架构局限、SIMoE创新框架及实验效果,为大模型专业适配提供新思路。
2025-07-21 09:52:09
242
原创 Mooncake & SGLang Team:在 128 个 H200 GPU 上部署具有 PD 分解和大规模专家并行性的 Kimi K2
摘要: Moonshot AI 发布的开源 MoE 模型 Kimi K2(1万亿参数,384专家)在 Agent 任务、数学、编程 等场景表现优异。针对其大规模部署挑战,团队结合 OME 和 SGLang 提出优化方案: Prefill-Decode 解耦:分离计算密集型与延迟敏感型任务,支持独立扩展。 大规模专家并行(EP):在 128 张 H200 GPU 上部署,通过动态路由与负载均衡提升效率,解码批次达 480。 声明式部署:通过 OME 简化配置,实现自动模型下载与并行优化。测试显示 解码吞吐 3
2025-07-21 09:40:51
729
原创 用图片生成高保真3D模型!Hi3DGen以法线为桥,为高清三维几何生成另辟蹊径
主页:http://qingkeai.online/ 随着从二维图像构建高保真三维模型的需求日益增长,现有方法
2025-07-17 22:02:05
380
原创 清华提出MoPPS,将贝叶斯流式推断引入提示选择领域,加速Reasoning Model训练
在大型语言模型(LLM)的强化学习微调中,计算效率与推理能力提升如同天秤的两端:传统方法要么随机采样提示,效率低下;要么依赖昂贵的实时评估,计算成本高昂。提示难度的动态评估需要LLM推理,而推理过程本身正是计算瓶颈所在。清华大学季向阳团队与德国Stable Diffusion团队(CompVis)的最新研究提出了(MoPPS),为突破推理大模型训练效能瓶颈提供了新思路。免评估的难度预测。
2025-07-15 14:26:46
392
原创 李飞飞&谢赛宁空间智能新作!探究 VLMs 构建稳健空间心理模型的能力,以及未来可能的新路径
VLM 可以像人类一样构建空间心智模型吗?人类可以从几个视角想象完整场景,从有限的视角和部分观察,对家具后面看不见的物体/超出当前视野的物体进行推理。我们的新基准测试MINDCUBE包含3,268张图像的21,154个问题,揭示了现有VLMs在这方面存在严重不足,表现接近随机水平。通过MINDCUBE,我们系统评估了VLMs构建稳健空间心理模型的能力,包括表示位置(认知映射)、方向(视角转换)和动态(针对"假设性"移动的心理模拟)。
2025-07-15 14:19:28
273
原创 ChatRex & RexSeek & RexThinker: 结合多模态大语言模型的目标检测模型构建
ChatRex、RexSeek 和 RexThinker,这三者分别代表着目标检测任务从自然语言理解、到指代消解、再到多模态推理能力的三次进化。
2025-07-12 12:23:57
573
原创 将监督微调SFT和强化学习RL两种训练范式结合!中科院&美团等提出SRFT
中科院深度强化学习团队联合美团,提出一种单阶段监督-强化微调方法——SRFT (Supervised Reinforcement Fine-Tuning)。该方法通过基于熵的动态加权机制,将两种训练范式结合。
2025-07-09 13:03:43
727
原创 一起来聊聊:强化学习是否真的能提升大模型的推理能力?
摘要: 7月12日10点,英伟达研究员刁诗哲将在青稞Talk第62期直播分享其团队提出的ProRL框架,探讨如何通过长期强化学习提升大模型的推理能力。研究提出多样化奖励任务、改进算法组合(GRPO+DAPO)及KL正则化等策略,突破传统RL训练的局限性。刁诗哲在NVIDIA从事大模型与强化学习研究,发表多篇顶会论文。直播将解析ProRL的理论框架与实验效果,详情可访问青稞Talk主页或论文arXiv链接。
2025-07-08 21:36:55
172
原创 刘子纬团队开源GUI-Reflection!让端到端多模态GUI智能体进行“自我反思”与“纠错”
GUI-Reflection 是一个贯穿训练全过程的框架,旨在系统性地赋予多模态GUI智能体以“自我反思与纠错”的能力。该框架由三大关键阶段组成,分别对应模型能力的认知启发、行为习得与交互强化:GUI-Reflection为端到端多模态 GUI 智能体注入了全新的“自我反思”能力。从预训练、离线微调到在线交互,它系统性地打通了“犯错—反思—修正”的认知闭环,使模型在面对真实环境中的不确定性时,能够更加鲁棒、灵活地应对各种突发状况。7月8日晚8点。
2025-07-07 11:45:33
674
原创 RL突破通用领域推理瓶颈!清华NLP实验室提出基于参考概率奖励的强化学习RLPR
RLPR 提出了创新的 Prob-to-Reward奖励机制,解决了现有 RLVR范式的领域依赖问题。通过在 Gemma、Llama、Qwen 等主流模型系列上的广泛验证,RLPR 不仅证明了其卓越的有效性和相对于传统规则奖励的显著优势,更在推动强化学习(RL)向更大规模(scaling)发展的道路上,迈出了坚实而有力的一步。更多研究细节,可参考原论文。
2025-07-02 01:13:54
732
原创 MIT开源Satori-SWE:如何训练小尺寸推理模型来解决复杂软件工程任务
Satori-SWE,一个旨在解决小尺寸语言模型(<70B)在复杂软件工程任务中性能瓶颈的系列工作。当前,这类模型相较于大型模型(>70B)表现不佳,且传统的 Test-Time Scaling 策略往往因需要生成大量样本而导致效率低下、成本高昂。为应对这一挑战,我们提出了一种名为 “Evolutionary Test-Time Scaling” (EvoScale) 的新方法。EvoScale 的核心思想是将代码补丁(patch)的生成过程,从一次性的、低效的采样,转变为一个迭代式的“进化”过程。
2025-07-01 14:17:54
291
原创 直播预告!探讨大模型推理强化学习中的熵机制
强化学习已经成为大模型智能跃升的下一个增长点,在这个背景下,本文旨在解决将强化学习用于大语言模型推理时面临的一个主要障碍——。这种现象在大量未引入熵干预的强化学习训练中普遍出现,表现为策略熵在训练初期急剧下降,探索能力随之减弱,并始终伴随着策略性能的饱和。这一经验规律强烈表明:策略性能是以策略熵为代价换来的,因此策略性能最终受限于熵的耗尽。。这一发现表明,为了实现可持续的探索并扩大 RL 的计算规模,必须对熵进行有效管理。为此,我们从理论和实证两个方面研究了策略熵的动态变化机制。
2025-06-26 16:29:20
319
原创 “虚拟社区”:基于真实地理场景和通用物理引擎的开放世界模拟环境
人工智能与机器人技术的飞速发展,正在引领人类社会迈向一个人与机器人共处的新阶段,这将带来深刻的社会变革与挑战。为探索这一未来,来自马萨诸塞大学阿默斯特分校、约翰霍普金斯大学和卡内基梅隆大学的研究者构建了“虚拟社区”平台——一个基于真实地理场景和通用物理引擎的开放世界模拟环境。在这一平台中,研究者致力于研究具身社会智能,包括:机器人如何协作或竞争、人类如何建立社会关系,以及人机如何在开放世界中共生共处。平台提供开源的多智能体物理模拟器和大规模社区生成工具,支持丰富角色建模和多样环境。
2025-06-23 20:08:59
404
原创 NVIDIA开源Fast-dLLM!解析分块KV缓存与置信度感知并行解码技术
Fast-dLLM 是NVIDIA联合香港大学、MIT等机构推出的扩散大语言模型推理加速方案。其通过分块KV缓存与置信度感知并行解码技术,在无需重新训练模型的前提下,实现了推理速度的突破性提升——在LLaDA模型1024 token长文本生成任务中,端到端推理速度狂飙27.6倍,整体耗时从266秒压缩至12秒,且主流基准测试准确率损失控制在2%以内。该方案兼具零训练成本与多模型兼容性,为扩散模型在长文本生成、实时交互等场景的落地提供了高效可行的优化路径。
2025-06-20 12:29:54
482
原创 从公式到代码!一文梳理RLHF发展历程
自 InstructGPT 首次验证强化学习从人类反馈(RLHF)中训练的有效性以来,RLHF 已逐步成为LLM训练的标准范式。本文主要梳理了笔者在学习过程中的一些记录和思考,并对RLHF做了一个简单的综述和总结。
2025-06-19 02:10:05
571
原创 InternVL3,GPT-4o开源平替:探索多模态通用感知大模型的技术演进与应用探索
摘要:青稞Talk第56期将分享复旦大学博士生王玮赟关于多模态大模型InternVL3的研究。InternVL3是OpenGVLab开源的多模态大型语言模型,具备卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析等。该模型采用可变视觉位置编码、原生多模态预训练、混合偏好优化等创新技术,在性能上超越前代产品。直播将于6月21日10:00进行,介绍多模态大模型的技术演进、训练算法设计及应用实践。InternVL3被视为GPT-4o的开源替代方案,有望推动通用智能技术的发展。
2025-06-17 12:17:28
959
1
原创 TransMLA|GQA/MHA转MLA获得10倍推理加速
TransMLA模型实现了三大突破:1)压缩大部分KV Cache;2)最小化性能损失;3)兼容DeepSeek推理代码,无需硬件优化即可加速。该工作通过RoRoPE和FreqFold技术去除K中多数head的位置编码,结合BKV-PCA进行低秩压缩,解决了此前Palu方案因RoPE导致的推理效率问题。实验表明,TransMLA的表达能力超过Group-Query Attention(GQA),在保持模型效果的同时显著提升推理速度。
2025-06-16 23:33:38
685
转载 理解GRPO,超越GRPO!GVPO算法详解
GVPO(Group Variance Policy Optimization), 可以无缝适配现有GRPO框架并取得更好的表现、更稳定的训练并支持更丰富的数据来源。
2025-06-13 12:18:18
54
原创 ICML 2025 高分Oral! 从神经架构搜索到智能体架构搜索:NUS提出多智能体超网络MaAS
摘要:新加坡国立大学团队提出多智能体架构搜索框架MaAS,通过构建"智能体超网"(Agentic Supernet)实现任务自适应的动态团队组建。该框架包含三层核心机制:1)构建包含所有可能工作流的超网;2)通过轻量级调度师动态采样最优执行路径;3)基于文本梯度的联合优化。实验表明,MaAS在6个基准测试中达到83.59%的平均性能,同时将推理成本降至基线方法的25%。其创新性在于实现了从"静态重团队"到"动态轻组合"的范式转变,能根据任务复杂度自
2025-06-12 01:28:37
1127
原创 像素空间推理揭秘「o3」关键技术:好奇心驱动RL解锁多模态推理全新范式
视觉语言模型迈向认知阶段新范式:像素空间推理 滑铁卢大学、港科大、中科大联合研究团队提出"像素空间推理"新范式,突破传统视觉语言模型依赖文本转译的局限。该研究揭示OpenAI o3系列模型的本质能力,让模型能直接在像素级进行视觉操作和推理,显著提升了处理高清图像微小物体和视频动态细节的能力。 研究团队发现模型在学习新能力时存在"认知惰性"问题,通过设计内在好奇心激励机制成功克服这一挑战。基于Qwen2.5-VL-7B构建的Pixel-Reasoner在四大基准测试中表
2025-06-11 12:42:46
977
原创 聊聊Thinking with Images的发展脉络,找全Related works
作者:庞子奇UIUC CS PhD(已授权)>>OpenAI发布了Thinking with Images[1],道理很简单:如果Vision-Language Model可以自由地使用一些基本操作帮助视觉理解,比如说放大、旋转。那么也可以在只基于文字的Test-time Scaling的基础上,进一步增强视觉Reasoning能力。时间虽然只过去了短短一个月,Thinking with Images早已变成了“万军之战”的前线,每天盯着Arxiv就不断地有新的论文冒出来。
2025-06-09 12:11:38
1008
原创 BAGEL一作解读:MoT架构+交错数据+生成理解联合预训练
字节跳动Seed团队开源多模态模型BAGEL,具备70亿参数(总计140亿),在理解与生成任务中表现卓越。该模型超越Qwen2.5-VL等开源视觉语言模型,图像生成质量媲美SD3,并展现出色的图像编辑能力。BAGEL创新性地扩展至视觉操作、多视图合成等"世界建模"任务。中科院博士生黎昆昌将于6月12日20:00在青稞Talk详解其MoT架构设计、三阶段训练法则及性能评估。该研究已发表于TPAMI、CVPR等顶刊会议,引用达6400次。(98字)
2025-06-09 12:08:03
449
2
原创 如何通过RL真正提升大模型的推理能力?NVIDIA提出长期强化学习训练框架ProRL
摘要:研究团队提出ProRL框架,通过长期强化学习(RL)扩展大语言模型的推理边界。针对当前RL训练时间过短、任务单一等问题,该研究利用熵值监控训练稳定性,结合KL控制、策略重置等技术,在数学、编程等多样化任务上进行实验。结果表明,相比基础模型,经过长期RL训练的模型不仅能解出原先无法回答的问题,还展现出更高的创造性解法。值得注意的是,RL提升效果与基础模型的初始表现呈负相关,在预训练覆盖较少的任务上进步更显著。相关模型权重已开源。
2025-06-05 00:19:22
455
原创 一作解读「模型链」新范式:引入因果建模,全新的大模型 Scaling 结构
《模型链:大语言模型扩展新范式》摘要 微软、复旦等机构研究者提出"表征链"(CoR)概念,将表征分解为多个子表征链,并在此基础上开发出"模型链"(CoM)学习范式。该范式通过链式层(CoL)在不同尺度间建立因果依赖关系,构建出语言模型链(CoLM)架构。实验表明,CoLM在保持性能的同时展现出更好的扩展性和灵活性:支持链式扩展提升模型能力,实现弹性推理适应不同场景,通过链式调优降低42%微调成本。特别是CoLM-Air版本采用键值共享机制,显著提升了长序列处理的效率。
2025-06-04 14:33:29
999
原创 港大&NV&MIT开源Fast-dLLM:无需重新训练模型,直接提升扩散语言模型的推理效率
无需重新训练模型,直接提升扩散LLM的推理效率,缩短长文本生成耗时,为实际部署提供可行性。例如,8-shot提示的1024token生成任务,从266秒压缩至12秒,效率提升显著。
2025-05-31 04:54:26
544
原创 聊聊在大模型推理强化学习中熵机制上的探索
强化学习训练大语言模型时普遍存在策略熵快速下降的问题,导致模型过度自信、探索能力受限。研究发现模型性能(R)与策略熵(H)呈指数关系R=-a*exp(H)+b,揭示了性能提升以熵消耗为代价的本质,并表明存在理论性能上限。研究进一步发现熵变化主要由动作概率与logits变化量的协方差驱动,高概率高优势动作会降低熵。基于此,团队提出Clip-Cov和KL-Cov两种熵控制方法,通过对高协方差token更新进行约束来维持熵平衡。实验证明该方法显著提升模型性能,在Qwen2.5-32B上较基线提升6.4%,高难度任
2025-05-30 05:35:55
541
原创 Sparse VideoGen开源:完全无损,视频生成速度加速两倍,支持Wan 2.1、HunyuanVideo等
《Sparse VideoGen:无需训练的视频生成加速方法》摘要 加州伯克利与MIT团队提出的Sparse VideoGen通过挖掘3D Full Attention中的时空稀疏性,实现了视频扩散Transformer的2倍加速。该方法识别出Spatial Head和Temporal Head两种注意力模式,分别处理空间邻近性和时间连贯性,并创新性地采用Online Profiling策略动态优化稀疏模式,仅需0.05%的token采样即可保持PSNR>29的高画质。结合硬件优化的Layout Tr
2025-05-26 15:47:20
1348
原创 ICLR 2025|在 Flux 等先进文生图架构中的概念擦除
EraseAnything:新型文本到图像模型的概念擦除解决方案 针对最新文本到图像扩散模型(如SD v3和Flux)的概念擦除难题,EraseAnything提出创新解决方案。该方法通过双层优化框架结合LoRA微调和注意力图正则化,选择性抑制不良概念激活,同时保持模型整体生成能力。其自对比学习策略可避免无关概念损伤,在多个任务中实现最优性能。该成果已被ICLR 2025接收,相关技术细节将于5月26日青稞Talk专题分享。
2025-05-24 11:43:08
330
原创 MoLE & SpeCache:降低模型参数与KV Cache两大推理时显存开销
LLM在多个领域表现出强大能力,尽管在线服务广泛应用,但出于隐私和离线需求,个人常需要端侧部署。然而,现有的基于MoE和Transformer架构的LLM在端侧部署时面临显存容量不足的挑战。,青稞Talk 第50期,北京大学智能学院博士生、华为诺亚方舟实验室实习生节世博,将直播分享《本期Talk将聚焦模型参数与KV Cache两大推理时显存开销来源的两项解决方案:MoLE 和 SpeCache。
2025-05-19 12:20:08
281
原创 核心开发者解读:verl 源码 与 HybridFlow 编程范式
verl 是字节跳动豆包大模型团队与香港大学联合提出的一个灵活且高效的 RL/RLHF 框架,是当前最为流行的大型语言模型强化学习训练框架之一,其基于 HybridFlow 编程范式,兼顾了灵活性和效率。该框架采用混合编程模型,融合单控制器(Single-Controller)的灵活性和多控制器(Multi-Controller)的高效性,可更好实现和执行多种RL算法,显著提升训练吞吐量,降低开发和维护复杂度。
2025-05-13 15:02:00
796
原创 从 TTS 到 TTRL:无标签数据强化学习探索与展望
在预训练 Scaling Law之后,测试时扩展(Test-time Scaling, TTS)已成为提升大模型推理能力的关键。OpenAI o1与DeepSeek R1等模型通过强化学习(RL)进行推理的范式,充分展现了TTS的潜力。然而,推理模型的性能上限仍深受基础模型(其架构与预训练数据)的制约。当前,标注数据的匮乏限制RL效果。。在最新的研究中,来自清华大学和上海人工智能实验室的研究员提出了一种新方法 ——,该方法能够在无标注数据上对 LLM 进行强化学习训练。
2025-05-11 21:59:42
384
原创 SGLang & veRL: 开创性的端到端多轮 RLHF 实现
工具是我们框架的关键组件,它支持环境交互,例如执行脚本、查询 API 或计算奖励。要集成自定义工具,您可以在单独的 YAML 文件中定义其行为,并在部署配置中引用该文件。每个工具必须为子类BaseTool:每次推出时初始化工具状态。:执行工具的核心功能(例如,评估输出)。:根据工具状态和交互计算奖励。:清理所有分配的资源。
2025-05-08 19:50:32
878
原创 SGLang Team:在 96 个 H100 GPU 上部署具有 PD 分解和大规模专家并行性的 DeepSeek
关注青稞AI,学习最新AI技术
2025-05-06 13:29:21
1278
原创 刘子纬团队最新成果Free4D:无需微调的 4D 场景生成新框架
Free4D,是由华中科技大学、MMLab@NTU以及湾大的研究者最新提出的一种无需调整的新型框架,可用于从单个图像生成 4D 场景。现有的 4D 生成方法要么专注于对象级生成,从而导致场景级生成不可行,要么依赖大规模多视角视频数据集进行昂贵的训练,并且由于 4D 场景数据的稀缺性而导致泛化能力有限。相反,Free4D 的研究者关键见解是提炼预先训练的基础模型以获得一致的 4D 场景表示,这提供了效率和泛化能力等有希望的优势。
2025-04-23 15:51:11
313
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人