LLM炼丹炉-优快云博客

原创图像编辑新突破！天大&快手提出GRAG：4 行代码改造DiT注意力层，实现图像编辑 “指令跟随-原图保真” 双优

Diffusion Transformer、MM-Attention、可控图像编辑、GRAG、天津大学、快手Kolors、分组相对注意力引导（Group Relative Attention Guidance, GRAG）、多模态注意力（Multi-Modal Attention, MM-Attention）、图像编辑（Image Editing）、视觉语言模型（Vision-Language Model, VLM）

2025-11-19 14:01:21 976

原创 AAAI 2026 Oral｜生成式推荐重磅！快手Align³GR双 SCID+渐进 DPO，工业部署收入提升1.4%

本论文提出了Align({}^{3})GR框架，通过统一token级、行为级和偏好级对齐来优化推荐效果。实验显示，该框架在公开数据集上**Recall@10和NDCG@10分别提升了17.8%和20.2%**，并在工业场景中显著提高了业务收入。

2025-11-19 12:17:54 643

原创 3D开放世界Agent新突破！字节Lumine在《原神》中展现人类级效率

本论文提出了Lumine模型，它基于视觉语言模型构建，能够通过像素输入实时生成键盘鼠标操作，并自适应地进行推理。实验表明，Lumine在《原神》中完成了长达五小时的主线任务，并成功零样本泛化到其他游戏中，展现了强大的通用性。

2025-11-17 10:14:57 1199

原创 LLM Agent训练新范式！阿里 AgentEvolver三协同机制，攻克任务稀缺与探索低效难题，性能碾压传统 RL 方法

自进化代理（Self-Evolving Agent）、自我提问（Self-Questioning）、自我导航（Self-Navigating）、自我归因（Self-Attributing）、强化学习（Reinforcement Learning）、任务生成（Task Generation）

2025-11-17 10:07:40 1311

原创谢赛宁×李飞飞×LeCun联手重磅｜Cambrian-S：「视频空间超感知」新范式，实现真正持续视频感知

谢赛宁×李飞飞×LeCun联手重磅：Cambrian-S：通过引入预测性感知机制和构建大规模空间感知数据集VSI-590K，显著提升了模型在空间推理任务上的表现。实验表明，该模型在多个空间理解基准上取得了显著进步，并在新提出的VSI-Super评测集上展现出优于现有商业模型的能力。

2025-11-12 14:51:57 1053

原创大模型后训练新突破！普林斯顿陈丹琦团队：RL 靠On-Policy数据，实现 “少遗忘+高增益” 双优

语言模型（Language Model, LM）在进行下游任务的后训练（Post-Training）时，常常面临灾难性遗忘（Catastrophic Forgetting）的问题，即模型在学习新任务的同时丢失了原有的知识能力。本文提出从策略数据（On-Policy Data）的角度系统分析并缓解遗忘现象。通过在多类任务、多种模型上的实验，论文发现RL因其使用当前策略生成的数据进行训练，相较于SFT表现出更少的遗忘，同时达到相当甚至更高的目标任务性能，并提出使用近似策略数据可在保证效率的同时有效减轻遗忘。

2025-10-29 14:10:17 991

原创无需RL也能强推理！哈佛新采样方法靠 “幂分布 + MCMC”，基础模型推理竟追平 GRPO

RL 后训练是否真正“学到”新能力？文献质疑很多推理提升其实是对基座模型分布的“锐化”，并指出 RL 常出现多样性塌缩、pass@k→single‑shot 的再分配等现象（引言与相关工作）。作者转而追问：仅靠采样能否在推理时把这些能力“唤出”？避免 RL 的现实痛点：RL 需要可验证奖励、数据清洗与大规模超参搜索，训练不稳定且常牺牲多样性。本文欲在不训练的前提下，获取与 RL 相当的单次推理性能，同时保持多样性。见摘要与第 1 节。

2025-10-29 12:21:37 1059

原创连中 ICCV 顶会！多模态大模型新范式，高分论文创新点都在这！

架构革新（如Mamba在扩散模型中的应用、统一化基础模型设计）、效率提升（如知识蒸馏、无需训练框架）及垂直领域突破（如自动驾驶、医疗影像、遥感分析）等

2025-10-29 12:13:27 1109

原创推理模型集体翻车！康奈尔大学：数学推理中越强的大模型，协作时越容易被“带偏”？

论文揭示了现有独立推理LLMs在协作场景中的根本局限性：即使是最强的模型也无法有效抵抗错误推理的干扰或利用正确推理的引导。这一发现挑战了传统基准测试对模型推理能力的评价标准，为构建真正具备协作能力的多智能体推理系统提供了重要理论基础和方法论创新。

2025-10-24 11:13:28 609

原创 OCR “去幻觉” 新纪元！通义点金 OCR-R1 搞定模糊盖章+跨页表格，攻克 OCR 三大痛点！

OCR 场景下的 LVLM 幻觉与感知不足：生成式大视觉语言模型（LVLM）在端到端文档解析上虽统一优雅，但容易“看图添字”，即输出图像中不存在的内容；与此同时，通用 LVLM 更偏重推理而非细粒度感知，在文本/表格/公式等 OCR 任务上常不如面向单任务训练的“专家模型”。论文第 1 页摘要与第 1 节、以及表 1（第 2 页）给出了“印章识别”中的典型幻觉例子。

2025-10-24 11:05:39 830

原创多模态融合顶会新成果！CVPR/AAAI /ICLR高分成果，这波思路必须学！

从CVPR、ICLR到AAAI，2025年顶会趋势显示，多模态融合领域正迎来新一轮技术突破。架构创新成为核心驱动力——神经架构搜索正在重新定义融合路径的自动化设计，模块化架构显著提升模型灵活性，状态空间模型则为序列建模带来全新范式，共同推动基础架构向更高效、更强大的方向演进。

2025-10-24 10:53:26 1024

原创中山大学新突破！LookupNet 用可微分查找表替代乘法超传统 CNN 精度，边缘 AI 新范式！

《Deep Lookup Network》提出了一种新型查找操作（Lookup Operation），通过可微分查找表直接映射激活值和权重响应，彻底去除乘法操作，同时保持高准确率。该工作在图像分类、超分辨率和点云分类任务上实现SOTA性能，显著提升能效，适用于资源受限设备。

2025-10-20 16:07:21 914

原创 NeurIPS‘2025高分入选！扩散模型+Transformer，效率与质量双线飙升！

从架构演进看，Transformer凭借自注意力机制擅长建模跨模态语义关联，扩散模型通过渐进去噪过程生成高保真连续数据。然而，传统融合方案面临根本性挑战——Transformer对离散token的依赖造成视觉细节损失，扩散模型缺乏对复杂语义的逻辑推理能力。CDiT通过因果扩散注意力机制与时变语义注入，在视频生成任务中不仅将时序一致性误差降低47%，更实现了文本-视频的精准语义对齐，为多模态大模型提供了可解释、可控的生成路径。

2025-10-20 15:53:50 794

原创杀疯了！2025 最新Agent Memory顶会论文，拿捏发文密码！

NeurIPS、ICML 2025 的接收论文数据显示，Agent Memory 已成为智能体领域的 “爆款选题”，谷歌 DeepMind、斯坦福等团队提出的记忆架构创新，成功解决了传统智能体 “长程推理断层”“多任务记忆干扰” 等核心痛点。当前Agent Memory 的研究热点集中在三大方向：一是持久化记忆与动态更新机制（如元学习驱动的记忆优化），二是多智能体记忆协同架构（如共享记忆池与权限管控设计），三是记忆与规划的深度融合（如基于记忆的思维树扩展）。

2025-10-20 15:44:30 1376

原创一文看懂AI 智能体与代理性 AI 的核心差异，这篇顶刊综述6个维度讲清两者核心概念！

一文看懂AI 智能体与代理性 AI 的核心差异

2025-10-16 16:30:03 943

原创中国科学院信工所发布首篇LLM智能体幻觉综述：分类体系、方法与未来方向，300+论文资源开源

关键词：大语言模型；幻觉；幻觉成因；幻觉检测；幻觉缓解；幻觉基准；幻觉指标

2025-10-15 16:36:12 777

原创 NeurIPS 2025 | 港科大&上交大HoloV：多模态大模型“瘦身”新突破，剪枝88.9%视觉Token，性能几乎无损

关键词：视觉令牌剪枝、多模态大语言模型、全局上下文保留、注意力机制偏差、HoloV框架、自适应令牌分配、视觉上下文重提取、位置偏差、注意力分散

2025-10-14 14:21:05 889

原创 NeurIPS 2025 Spotlight！伯克利、MIT联合提出SVG2：语义感知稀疏注意力，加速视频生成2.3倍

关键字：NeurIPS 2025、Spotlight！伯克利、MIT、韩松团队、视频生成、稀疏注意力框架SVG2、token

2025-10-13 16:47:16 792

原创 Nature ｜记忆管理天花板来了！MOOM 双分支框架 + 竞争抑制遗忘，各项指标碾压现有方法！

关键词：超长对话记忆管理、角色扮演对话系统、双分支记忆提取、叙事摘要分支（NSB）、角色构建分支（PCB）、竞争-抑制遗忘机制、记忆容量控制、ZH-4O数据集、MemScore评估

2025-10-13 16:34:08 1035

原创太牛了！北大：Unified-GRPO让理解生成正反馈，超 GPT-4o-Image

该研究提出UAE统一多模态学习框架，通过自编码器视角将图像理解与生成过程结合，以重建保真度为训练目标，实现双向信息流并提升多模态性能。

2025-10-11 14:02:48 663

原创【ICCV 2025】FrDiff：频域魔法+扩散模型暴力去雾，无监督性能刷爆榜单！

本文提出了一种基于频域的扩散模型FrDiff，利用非配对清晰数据，首次将扩散模型应用于非配对去雾任务。

2025-10-10 14:34:59 719

LLMliandanlu的博客