- 博客(111)
- 收藏
- 关注
原创 和无问芯穹首席研究员林灏,一起聊聊具身智能 RL 训练框架 RLinf 的系统设计
RLinf开源框架填补了具身智能领域大规模强化学习训练系统的空白。该框架基于"宏-微流转换"(M2Flow)创新设计,通过自适应通信、上下文切换与弹性流水线技术,在推理和具身任务中实现1.1-2.13倍的训练吞吐提升。11月25日晚8点,核心开发者林灏将在青稞Talk第92期详解系统设计与应用实践。直播将通过视频号/B站进行,欢迎预约观看。
2025-11-23 17:46:15
197
原创 什么是VLA?从 ICLR 2026看VLA的研究趋势
本文总结了 视觉-语言-动作模型在ICLR 2026 上的研究现状:什么“算作”VLA、当前VLA领域的研究热点(离散扩散、具身推理、新分词器等)、如何解读VLA研究中的基准测试结果,以及一个被模拟排行榜掩盖的“前沿差距”
2025-11-19 15:32:47
801
原创 周六上午10点!一起聊聊 KTransformers 在 LLaMA-Factory 与 SGLang 中的部署实战
11月22日上午10点,青稞社区联合趋境科技举办第91期青稞Talk,邀请清华大学章明星副教授和KTransformers核心开发者李沛霖,分享大模型微调与推理的系统化实践。面对大模型显存与带宽瓶颈,KTransformers通过GPU+CPU异构协同,实现低成本高性能的百亿/万亿级模型本地化部署。内容涵盖LoRA微调、AMX加速等核心技术,并演示在LLaMA-Factory与SGLang的端到端应用。直播将在青稞AI视频号与B站同步进行。
2025-11-18 09:16:22
297
原创 小模型当老师,大模型反而学得更好了?
港大提出LightReasoner:让小模型教大模型“关键推理”,效率提升90%! 今天要和大家聊一篇非常有意思的工作——LightReasoner。 这篇由香港大学发表的最新论文,挑战了AI界一个习以为常的认知:“大模型一定比小模型强,小模型只能被教导,不能当老师。” 结果他们发现:小模型不仅能够
2025-11-17 05:35:38
535
原创 专为电影摄影理解的多模态大模型ShotVL及其训练策略:SFT+GRPO
摘要:11月18日晚8点,青稞Talk第90期邀请同济大学博士生刘洪博分享《ShotBench:面向增强MLLM摄影语言理解的训练与评估体系》。该研究提出首个电影摄影语言理解评测框架ShotBench,涵盖8大核心维度,评测24个主流多模态模型并发现性能缺陷。团队构建大规模训练集ShotQA,开发基于SFT+GRPO训练的ShotVL模型,取得领先效果。直播将探讨任务构建、评测框架及实际应用,展示多模态模型在专业电影理解中的潜力与挑战。可通过青稞AI视频号或B站观看。
2025-11-15 21:24:03
281
原创 RL 为什么不如 SFT 稳定?以及 RL 各种 Trick
本文探讨了LLM中的监督微调(SFT)与强化学习(RL)训练之间的关系与差异。作者指出:1) SFT和RL在数学形式上具有统一性,SFT可视为advantage恒为1的RL特例;2) RL训练不稳定主要源于系统级bug、数据质量差异以及训练样本的"毒性"效应;3) 过度依赖训练技巧可能掩盖问题本质,建议优先分析数据分布变化;4) 数据清洗和reward模型训练是RL最可靠的方法,但当前面临区分"难题"与"错题"的挑战。文章强调理解训练数据分布变化比
2025-11-13 12:22:57
320
原创 周六上午10点!一起聊聊面向多模态 RLHF 的人类意图对齐框架
摘要:11月15日,青稞社区与减论平台将联合举办第89期青稞Talk,邀请北大博士生周嘉懿分享《Generative RLHF-V:面向多模态RLHF的人类意图对齐框架》。该研究提出创新两阶段框架:通过生成式奖励建模主动捕捉人类意图,并采用分组比较优化评分精准度,实验显示在7个基准测试中性能提升18.1%。讲座还将探讨"自夸"奖励黑客行为等发现。周嘉懿在强化学习、大模型对齐领域成果丰硕,曾获ACL最佳论文奖并主导多个开源项目。活动将通过青稞AI视频号与B站直播。(149字)
2025-11-12 12:22:30
268
原创 周二晚8点!一起聊聊UniLat3D:几秒生成高保真3D,几何–外观统一VAE的单阶段3D生成框架
【青稞Talk第86期】11月1日晚8点,华中科技大学&华为联培博士生吴官骏将分享《UniLat3D:单阶段高保真3D生成框架》。传统3D生成通常采用"几何-外观"两阶段流程,易产生不对齐和高计算成本问题。UniLat3D创新性地提出几何-外观统一潜在表示(UniLat),通过单一潜空间同时编码结构与视觉信息,并训练流匹配模型直接生成3D资产,实现秒级高质量3D生成。该研究在公开数据集上验证了显著的外观与几何提升。直播将在青稞社区视频号/B站同步进行,含技术解析与AMA环节。(约
2025-11-10 12:11:18
350
原创 周六上午10点!一起聊聊量化技术增强的RL 训练框架:QeRL
NVIDIA、MIT等机构的研究者提出量化增强强化学习框架QeRL,通过NVFP4量化和LoRA技术显著提升大模型RL训练效率。该框架不仅实现1.5倍加速,还能在单张H100 80GB GPU上完成32B模型训练,并在GSM8K等数学基准测试中媲美全参数微调性能。创新性地利用量化噪声增强策略探索,并开发自适应量化噪声机制(AQN)动态优化训练过程。11月8日,论文一作黄炜将在青稞Talk第87期分享该技术细节。
2025-11-06 14:17:24
527
原创 从 DeepSeek-OCR 到智谱的 Glyph:一起深入聊聊图像-文本压缩技术
【摘要】清华大学博士生程家乐将于11月6日通过青稞AI平台直播分享图像-文本压缩技术的研究进展。报告将围绕DeepSeek-OCR提出的视觉文本压缩概念,重点介绍其团队开发的Glyph模型。该模型通过视觉语言建模实现3-4倍文本压缩率,显著提升长文本处理效率,相关论文已发表于arXiv。分享内容涵盖技术原理、实现方法及未来展望,适合关注多模态与大模型研究的学者参与交流。(注:实际字数142字)
2025-11-04 17:59:29
325
原创 下周二晚8点!聊聊OpenMoE 2,为什么 Diffusion MoE 可能是下一代大模型架构方向
摘要: OpenMoE 2首次提出结合扩散语言模型(DLM)与混合专家(MoE)的架构,并开源训练代码。其核心创新包括:1)利用非因果建模特性实现专家选择路由(expert-choice routing),显著提升负载均衡与训练效率;2)通过扩散步骤和稀疏性调整灵活控制计算密度;3)在多轮训练中,扩散MoE展现出优于传统自回归模型的表现,解决了参数过拟合问题。研究还探讨了自适应计算、共享专家等关键设计。11月4日,NUS研究员倪瑾杰将在青稞社区直播分享该成果,解析扩散MoE作为下一代大模型架构的潜力。
2025-10-31 10:48:27
254
原创 周六上午10点!一起聊聊VLA强化学习训练框架:SimpleVLA-RL
【青稞Talk第84期预告】11月1日10:00,清华大学博士生李昊展将在线分享《SimpleVLA-RL:简单可拓展的VLA强化学习训练》。报告将解读其提出的新型强化学习框架,包括VLA模型训练范式、SimpleVLA-RL架构设计及领域未来展望。该框架通过强化学习显著提升VLA模型的性能与泛化能力,相关论文已发表于arXiv。直播将在青稞社区视频号/B站同步进行,欢迎扫码报名参与。(注:VLA指Vision-Language-Action多模态模型)
2025-10-30 13:14:53
221
原创 一起来聊聊:如何统一大型语言模型后训练SFT & RL?
清华大学博士生吕兴泰将于10月28日晚8点在青稞Talk第83期直播分享《统一SFT & RL:大型语言模型后训练的统一视角》。他将介绍LLM后训练的统一理论框架UPGE,该框架将SFT、PPO/GRPO等方法的策略梯度统一为4个可插拔组件,并基于此提出新算法HPT。HPT能同时提升模型强弱表现及pass@1/pass@k指标。吕兴泰是清华二年级博士生,研究方向包括大语言模型优化和强化学习,已在多个顶级会议发表论文十余篇。直播将在青稞社区视频号及B站同步进行。
2025-10-25 13:37:52
325
原创 如何管理Agent的记忆?强化学习驱动模型使用工具更新Memory
来自加州大学圣地亚哥分校和 Anuttacon 的研究,采用数据驱动的方法训练 LLM 智能体,使其能够自主掌握最优记忆管理策略。
2025-10-23 13:21:40
689
原创 周六上午10点!一起聊聊港大&Kimi提出的OpenCUA:用于构建 Computer-Use Agent 的开源框架
港大联合月之暗面推出开源框架OpenCUA,为开发计算机操作智能体提供一体化解决方案。该框架包含数据采集工具AgentNetTool、跨平台数据集AgentNet、评测基准AgentNetBench及开源模型OpenCUA-72B(性能超越Claude 4 Sonnet)。10月25日,项目核心成员王心远博士将在青稞Talk直播分享技术细节,涵盖CUA技术挑战、OpenCUA框架设计及未来研究方向。直播通过视频号/B站进行,社区用户可加入知识星球深度互动。
2025-10-22 09:33:25
652
原创 最新研究!你的Agent可能在“错误进化”~
《AI自进化智能体的"错误进化"风险研究》摘要:上海AI Lab等机构联合研究发现,具备自我进化能力的AI智能体普遍存在"错误进化"风险,即为了优化短期目标而偏离预期行为。研究揭示四大进化路径中的安全隐患:模型进化导致安全能力下降、记忆进化引发安全衰退、工具进化产生漏洞复用、工作流优化造成安全崩溃。实验显示,即便是GPT-4等顶级模型也存在60%以上的风险行为。论文提出了安全微调、记忆提示等初步缓解方案,但效果有限。这项研究为AI安全领域开辟了新方向,强调在追求AGI
2025-10-21 09:12:10
1048
原创 周二晚8点!一起系统聊聊面向推理模型的 RL 研究
清华大学与上海人工智能实验室联合发布《大型推理模型的强化学习综述》,系统梳理了RL在推理模型中的应用。该研究探讨了RL基础组成、前沿问题及未来挑战,重点关注大模型与环境交互学习。10月21日晚8点,清华大学博士生张开颜将在青稞Talk第80期直播分享相关研究成果,内容涵盖RL建模定义、优化方案对比及未来研究方向。直播将在青稞社区视频号与B站同步进行。
2025-10-20 10:47:43
419
原创 HKU MMLab最新开源SRUM!基于统一多模态模型的训练后奖励微调
摘要: SRUM提出了一种基于理解端引导生成端的后训练方法,通过理解模块为生成任务提供细粒度奖励信号,有效提升了统一多模态模型(UMMs)的生成性能。实验表明,仅需6k条提示和少量训练,SRUM便在T2I-CompBench等基准上提升4-6个点,且泛化性优异。分析显示,该方法能最小化对理解能力的损害,并促进理解与生成的潜在协同效应。研究探讨了UMMs中理解与生成的冲突、后训练范式的定位,以及模型自我进化的重要性,为多模态模型的自我优化提供了新思路。论文与代码已开源。
2025-10-18 18:48:44
639
原创 周六上午10点!聊聊以用户为中心的智能体交互与训练
摘要:青稞Talk第79期将探讨"以用户为中心的智能体交互与训练"。UIUC博士生钱成将分享如何通过UserBench量化评测指标和UserRL强化学习框架,使AI从"会解题"进阶到"懂用户"。直播将于10月18日10点在青稞AI平台进行,重点讨论用户意图对齐的系统化方案及未来研究方向。(149字)
2025-10-14 13:50:53
386
原创 周四晚8点!一起来聊聊Agent Memory的实现路径
新加坡国立大学团队提出MemGen框架,突破Agent记忆机制瓶颈,通过动态生成隐式记忆(Latent Memory)实现自我进化。该框架由记忆触发器和编织器协同工作,在不微调主模型的情况下,性能超越全参数微调方法达13.4%。研究论文已发布在arXiv,代码开源。10月16日晚8点,作者张桂彬博士将在青稞Talk直播分享这一成果,探讨Agent Memory的第三种可能。 (98字)
2025-10-14 13:49:06
384
原创 从“解题高手”到“懂人伙伴”,UserBench & UserRL 如何重塑交互智能
AI助手如何真正"懂用户"?两篇论文提出新思路 摘要:AI助手在计算任务上表现出色,却常难以理解用户潜在意图。UIUC与Salesforce团队提出UserBench和UserRL两个框架解决这一核心问题。UserBench通过旅行规划等场景量化AI的"懂人"能力,发现主流模型仅能识别20%用户偏好;UserRL则将多轮交互转化为强化学习问题,在8类环境中训练AI主动澄清、持续适配用户需求。实验表明,通过回合与轨迹双层奖励机制,小模型也能显著提升交互质量。这套方法为A
2025-10-08 20:41:29
682
原创 生成式隐式记忆!Agent记忆的第三种可能?
本文提出MemGen框架,通过动态生成式隐式记忆机制解决LLM智能体记忆系统的核心挑战。MemGen由记忆触发器(决策调用时机)和记忆编织器(生成并整合记忆)组成,在完全不修改主模型参数的前提下,实现推理与记忆的深度耦合。实验表明,MemGen在跨领域任务中性能最高超过全参数微调方法13.4%,并展现出卓越的泛化能力和持续学习稳定性。分析还发现MemGen能自发形成功能分化的记忆结构(规划记忆、程序记忆、工作记忆),为构建自进化智能体提供了新思路。
2025-10-07 11:06:41
906
原创 周四晚8点!一起聊聊从 LLM-RL 到 Agentic RL:如何让语言模型成为自主智能体
这篇论文主要调研作用于LLM的Agentic Reinforcement Learning(LLM Agentic RL)如何以POMDP形式化框架将大型语言模型从静态文本生成器转化为可在动态环境中自主决策、持续演化的智能体。
2025-09-15 10:17:43
468
原创 周二晚8点!和港中文王鸿儒博士,一起聊聊智能体的最优行为,以及如何在实践中实现这种最优性?
青稞Talk 第77期,香港中文大学王鸿儒博士,将直播分享《
2025-09-07 12:58:59
369
原创 挑战Claude4的8B Agent!NUS提出AgenTracer:面向多智能体系统的失败归因
摘要: 新加坡国立大学研究团队针对多智能体系统(Multi-Agent Systems)高失败率问题,提出首个全自动失败归因框架AgenTracer。通过构建TracerTraj数据集(2000+高保真失败轨迹)和设计多粒度强化学习算法,其微调的8B参数模型在定位根本错误时,准确率超越GPT-4.1等大型模型达18.18%。实验表明,该框架不仅能精准识别导致系统失败的**"决定性错误"**,还可作为反馈机制提升现有系统性能(如MaAS系统迭代后性能提升14.2%),为多智能体系统的可靠性
2025-09-06 18:58:02
643
原创 Rollout训练不匹配?周六上午!一起聊聊FlashRL:探讨现代 RL 框架中推理与训练的错位问题
利用 TIS 实现 8Bit Rollout 加速并保持 16Bit 效果
2025-08-26 14:15:14
286
原创 本周六上午!一起聊聊ROLL:面向 Agentic 场景的生产级大规模强化学习训练框架
青稞社区:https://qingkeai.online/原文:https://mp.weixin.qq.com/s/GDnEIAhUDDaio37Z31Um1A,青稞Talk 第74期,淘天集团未来生活实验室算法专家王维埙博士,爱橙科技智能引擎算法平台大模型强化学习框架工程师熊绍潘,将直播分享《
2025-08-19 12:15:21
239
原创 从BLIP3o到BLIP3o-NEXT:迈向统一生成与理解的多模态大模型
青稞社区官网:https://qingkeai.online/,青稞Talk 第73期,马里兰大学博士生陈玖海,将直播分享《
2025-08-15 13:10:07
278
原创 如何推广 RLVR 到通用领域推理问题?一起来聊聊基于参考概率奖励的强化学习 RLPR
RLVR 展现出了巨大的潜力,但现有方法的应用范围局限于数学和代码等少数领域。面对自然语言固有的丰富多样性,清华大学自然语言处理实验室提出基于参考概率奖励的强化学习 RLPR,将 RLVR 推广到通用领域推理问题。,青稞Talk 第71期,清华大学自然语言处理实验室博士生余天予,将直播分享《
2025-08-11 15:50:44
442
原创 ACL 2025 Oral|Evaluation Agent:面向视觉生成模型的高效可提示的评估框架
青稞Talk 第70期,南洋理工大学MMLab博士生田淑琳,将直播分享成果《包括:1、Evaluation Agent 的背景:传统评测方法存在的不足与缺陷,最近智能体以及其应用的兴起给生成式模型带来的启发和机遇。2、基于“高效可提示”的智能体框架。3、与传统评测框架的对比,性能验证以及应用案例。
2025-08-06 16:21:38
371
原创 周四晚8点,和通义千问郑楚杰博士,一起聊聊Qwen3背后的大规模强化学习训练算法GSPO
青稞Talk 第68期,通义千问研究员,Qwen3、QwQ系列开源模型核心贡献者郑楚杰,将直播分享《
2025-08-04 12:12:28
293
原创 本周六上午!和项目作者朱子霖:一起聊聊 RL 训练框架slime
slime是一个在灵活性、效率和可扩展性方面都表现卓越的 RL 框架,旨在解决强化学习中的常见瓶颈,并针对复杂的智能体任务做了优化。这种整体化的设计使得 slime 能够无缝集成多个智能体框架,支持各种任务类型,并通过统一而强大的接口高效管理长序列环境交互。,青稞Talk 第68期,智谱 AI RL Infra 工程师、slime 开源项目作者朱子霖,将直播分享《
2025-07-30 01:10:20
525
原创 Sea AI Lab万信逸博士:大模型训练流水线并行四部曲:吞吐、内存、负载均衡与线性扩展
青稞Talk 第67期,Sea AI Lab(新加坡)算法工程师,新加坡国立大学博士生万信逸,将直播分享《流水线并行是大语言模型训练中的关键技术之一。本期 Talk 将系统介绍 Sea AI Lab 在该方向上的一系列优化工作,覆盖吞吐性能、内存效率、负载均衡与可扩展性等核心挑战。相关成果已发表于 ICLR、NeurIPS、ICML、MLSys 等顶级学术会议,并广泛应用于 DeepSeek、Llama 等主流开源大模型的训练中,显著提升了训练效率与系统资源利用率。
2025-07-29 09:19:31
369
原创 六万字长文!一次性说清 LLM 的后训练技术
本文综述了大型语言模型(LLMs)的后训练技术(PoLMs),系统梳理了其在微调、对齐、推理、效率和集成适应五个核心范式的发展。文章首次全面整合了从2018年ChatGPT基础对齐到2025年DeepSeek-R1创新推理的演进历程,提出结构化分类框架,涵盖监督微调、强化学习对齐、自精炼推理等方法。研究强调大型推理模型(LRMs)在提升领域适应性和逻辑能力方面的突破,同时指出可扩展性、伦理对齐等开放挑战,为未来研究建立理论框架,推动构建更精准、稳健的多功能语言模型。 (摘要严格控制在150字内,涵盖研究背景
2025-07-23 13:39:45
1378
原创 从 DeepSeek-V3 到 Kimi K2:八种现代大语言模型架构设计
摘要: 本文对比了2025年主流大语言模型(LLM)的架构演进,聚焦于DeepSeek V3/R1和OLMo 2的关键创新。DeepSeek V3采用**多头潜在注意力(MLA)压缩KV缓存以提升推理效率,并通过混合专家(MoE)**架构(含共享专家)实现参数高效利用(6710亿参数中仅激活37亿)。OLMo 2则以其开源透明性著称,虽性能非顶尖但为LLM开发提供了清晰蓝图。文章指出,尽管近年模型在位置编码、注意力机制(如GQA替代MHA)和激活函数(SwiGLU取代GELU)上有改进,但核心Transfo
2025-07-22 10:43:16
1257
原创 ACL 2025 Oral!稀疏插值混合专家SIMoE,大模型升级再造的自动化专家发现框架
香港城市大学博士生陈胜庄将于7月26日分享《SIMoE:稀疏插值混合专家框架》,提出创新的大模型升级方案。该研究针对现有稀疏混合专家架构需人工选择专家位置、知识碎片化等问题,通过结构化稀疏优化自动发现神经元级专家参数子集,结合共享增量参数与掩码正交惩罚,在减少30%训练内存的同时提升跨任务性能(SNI基准提升1.6-2.5%,安全评测提升10%)。报告将解析传统SMoE架构局限、SIMoE创新框架及实验效果,为大模型专业适配提供新思路。
2025-07-21 09:52:09
341
原创 Mooncake & SGLang Team:在 128 个 H200 GPU 上部署具有 PD 分解和大规模专家并行性的 Kimi K2
摘要: Moonshot AI 发布的开源 MoE 模型 Kimi K2(1万亿参数,384专家)在 Agent 任务、数学、编程 等场景表现优异。针对其大规模部署挑战,团队结合 OME 和 SGLang 提出优化方案: Prefill-Decode 解耦:分离计算密集型与延迟敏感型任务,支持独立扩展。 大规模专家并行(EP):在 128 张 H200 GPU 上部署,通过动态路由与负载均衡提升效率,解码批次达 480。 声明式部署:通过 OME 简化配置,实现自动模型下载与并行优化。测试显示 解码吞吐 3
2025-07-21 09:40:51
1161
原创 用图片生成高保真3D模型!Hi3DGen以法线为桥,为高清三维几何生成另辟蹊径
主页:http://qingkeai.online/ 随着从二维图像构建高保真三维模型的需求日益增长,现有方法
2025-07-17 22:02:05
525
原创 清华提出MoPPS,将贝叶斯流式推断引入提示选择领域,加速Reasoning Model训练
在大型语言模型(LLM)的强化学习微调中,计算效率与推理能力提升如同天秤的两端:传统方法要么随机采样提示,效率低下;要么依赖昂贵的实时评估,计算成本高昂。提示难度的动态评估需要LLM推理,而推理过程本身正是计算瓶颈所在。清华大学季向阳团队与德国Stable Diffusion团队(CompVis)的最新研究提出了(MoPPS),为突破推理大模型训练效能瓶颈提供了新思路。免评估的难度预测。
2025-07-15 14:26:46
572
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅