顶会论文
文章平均质量分 90
UnknownBody_2
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2025_NIPS_Evaluating Generalization Capabilities of LLM-Based Agents in Mixed-Motive Scenarios Using
大型语言模型(LLM)智能体已展现出令人瞩目的社交交互能力,且正日益被部署于可能与人类及人工智能体交互的场景中。这些交互构成了LLM智能体的关键前沿领域,但现有评估方法无法衡量这些能力在新型社交场景中的泛化效果。本文提出一种基于Concordia(自然语言多智能体模拟环境)的评估方法,用于测试LLM智能体在零样本、混合动机环境中的合作能力。该方法通过测试智能体在不同合作方与场景中识别并利用互利机会的能力,衡量其通用合作智能。原创 2026-01-07 10:15:00 · 3 阅读 · 0 评论 -
2025_NIPS_KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Sy
本文针对基于大语言模型(LLM)的多智能体系统中,智能体间因重复处理重叠上下文导致的预填充(prefill)效率低下问题,提出了训练无关的KV缓存通信框架KVCOMM。该框架通过锚点池(anchor pool)存储历史缓存偏移量,利用令牌相似度匹配和偏移量插值,实现不同前缀上下文下KV缓存的高效复用,在检索增强生成、数学推理、协同编程等任务中,在不损失性能的前提下大幅提升预填充速度。多智能体大语言模型(LLM)系统正被日益广泛地应用于需要智能体间通信与协作的复杂语言处理任务。原创 2026-01-07 09:15:00 · 89 阅读 · 0 评论 -
2025_NIPS_Rebalancing Return Coverage for Conditional Sequence Modeling in Offline Reinforcement Lea
近年来,离线强化学习(RL)的研究进展凸显了条件序列建模(CSM)的潜力——该范式通过同时基于历史轨迹和每个状态关联的目标回报来建模动作分布。然而,由于次优数据集导致的回报分布不平衡,CSM在以高回报为条件进行推理时面临严重的分布偏移问题。尽管近期研究通过加权采样、价值正则化监督等回报再平衡技术尝试实证性地解决这一挑战,但回报再平衡与CSM方法性能之间的关系尚未得到充分理解。本文揭示,专家级回报覆盖和全谱回报覆盖均对CSM策略的性能和样本效率具有关键影响。原创 2026-01-07 08:15:00 · 104 阅读 · 0 评论 -
2025_NIPS_Prompt Tuning Decision Transformers with Structured and Scalable Bandits
提示调优已成为离线强化学习(RL)中适配大型预训练决策转换器(DT)的关键技术,尤其在多任务和少样本场景中表现突出。提示决策转换器(PDT)通过从专家演示中均匀采样轨迹提示实现任务泛化——但未考虑提示的信息价值。本文提出一种基于老虎机的提示调优方法,能够在推理时从演示数据中构建最优轨迹提示。我们设计了一种在轨迹提示空间中运行的结构化老虎机架构,实现了与提示规模的线性扩展(而非组合级扩展)。此外,我们证明预训练PDT本身可作为老虎机的强大特征提取器,支持在多种环境中进行高效奖励建模。原创 2026-01-07 07:15:00 · 58 阅读 · 0 评论 -
2025_NIPS_Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visua
本文针对大视觉语言模型(LVLMs)在空间推理任务中依赖文本推理、丢失空间细节的局限性,提出“空间绘图推理”(drawing to reason in space)新范式,让模型通过边界框标注、辅助线绘制等视觉操作直接交互,实现精准空间理解。设计三阶段训练框架(合成数据冷启动训练→反射性拒绝采样→强化学习),开发出VILASR模型,在迷宫导航、静态/视频/多视角空间推理等5个基准测试中,平均性能提升18.4%,显著优于现有方法。原创 2026-01-06 10:00:00 · 92 阅读 · 0 评论 -
2025_NIPS_Semantic Representation Attack against Aligned Large Language Models
大型语言模型(LLMs)日益采用对齐技术以防止生成有害输出。尽管存在这些防护措施,攻击者仍可通过精心设计的提示词诱导LLMs生成有害内容。现有方法通常靶向精确的肯定性响应(如“当然,以下是……”),存在收敛性有限、提示词不自然和计算成本高等问题。我们提出语义表示攻击(Semantic Representation Attack),这是一种全新范式,从根本上重新定义了针对对齐LLMs的对抗目标。与靶向精确文本模式不同,我们的方法利用语义表示空间,该空间包含具有等价有害含义的多样化响应。原创 2026-01-06 09:15:00 · 144 阅读 · 0 评论 -
2025_NIPS_VETA-DiT: Variance-Equalized and Temporally Adaptive Quantization for Efficient 4-bit Diff
扩散Transformer(DiTs)近年来在视觉生成任务中展现出卓越性能,通过显著提升图像和视频生成质量及可扩展性,超越了传统基于U-Net的扩散模型。然而,庞大的模型规模和迭代去噪过程带来了巨大的计算和内存开销,限制了其在实际应用中的部署。后训练量化(PTQ)是一种极具潜力的解决方案,通过将权重和激活转换为低比特表示来压缩模型并加速推理。尽管前景广阔,但PTQ应用于DiTs时面临重大挑战,往往导致生成质量的严重下降。原创 2026-01-06 08:15:00 · 75 阅读 · 0 评论 -
2025_NIPS_Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents
近年来,将高保真视觉合成能力融入大型语言模型(LLMs)同时不损害其强大推理能力的研究备受关注。现有直接训练 LLM 或桥接 LLM 与扩散模型的方法通常面临高昂的训练成本,因为骨干 LLM 在预训练阶段并未接触过图像表示。本文提出 BIFROST-1,这是一种统一框架,通过补丁级 CLIP 图像嵌入作为潜在变量来桥接预训练多模态 LLM(MLLMs)与扩散模型,这些潜在变量与 MLLM 的 CLIP 视觉编码器原生对齐。原创 2025-12-31 10:06:37 · 174 阅读 · 0 评论 -
2025_NIPS_Equilibrium Policy Generalization: A Reinforcement Learning Framework for Cross-Graph Zero
该研究聚焦于追逃游戏(PEG)中的跨图零样本泛化问题,提出了均衡策略泛化(EPG)框架,旨在解决现有强化学习(RL)方法在图结构变化时需重新计算或微调、实时性差且鲁棒性不足的缺陷。对抗性游戏中的均衡学习是博弈论和强化学习领域广泛研究的重要课题。追逃游戏(PEG)作为机器人和安全领域的一类重要现实游戏,其精确求解需要指数级时间。当底层图结构发生变化时,即使是最先进的强化学习方法也需要重新计算或至少进行微调,这既耗时又会损害实时适用性。原创 2026-01-04 08:00:00 · 214 阅读 · 0 评论 -
2025_NIPS_Sim-LLM: Optimizing LLM Inference at the Edge through Inter-Task KV Reuse
大语言模型(LLMs)在边缘计算节点部署时,KV缓存技术虽能降低计算开销,但随着任务复杂度和规模增加,KV缓存会占用大量GPU内存,而边缘节点资源受限,现有优化方法(如序列长度缩减、任务特定压缩、动态驱逐策略)存在计算开销高、内存节省效果有限的问题。核心矛盾:边缘计算场景中LLM任务量增长导致KV缓存内存开销激增,现有方法难以在资源受限环境下平衡内存占用与计算效率。首个从任务层面利用任务相似性优化边缘LLM推理的方法,突破现有基于层或令牌层面的优化思路,针对性解决边缘场景中任务相似性高的特性。原创 2026-01-05 10:00:00 · 74 阅读 · 0 评论 -
2025_NIPS_LogicTree: Improving Complex Reasoning of LLMs via Instantiated Multi-step Synthetic Logic
尽管大型语言模型(LLMs)在各类任务中表现出色,但它们在逻辑推理方面仍存在不足,尤其在复杂的多步推理过程中。在众多提升LLMs推理能力的尝试中,合成大规模、高质量的逻辑推理数据集已成为一个极具潜力的方向。然而,现有方法往往依赖预定义模板生成逻辑推理数据,限制了其在真实场景中的适应性。为解决这一局限,我们提出了LogicTree——一种高效合成多步逻辑推理数据集的新型框架,该框架在推理复杂性和场景实例化方面均表现优异。原创 2026-01-04 10:00:00 · 106 阅读 · 0 评论 -
2025_NIPS_From Replication to Redesign: Exploring Pairwise Comparisons for LLM-Based Peer Review
大语言模型(LLMs)的出现为重新构想同行评审提供了前所未有的机遇,使其能够突破传统工作流程的限制。尽管存在这些机遇,但以往的研究大多侧重于用LLMs直接替代人类评审者来复刻传统评审流程,而对从根本上重新思考LLMs如何参与学术评审过程的新范式关注有限。本文提出并探索了一种新颖机制,即利用LLM智能体对论文进行两两对比而非单独打分。通过聚合大量两两评价的结果,该方法能够更准确、更稳健地衡量论文的相对质量。实验表明,这种对比方法在识别高影响力论文方面显著优于传统打分制方法。原创 2026-01-03 10:00:00 · 114 阅读 · 0 评论 -
2025_NIPS_NEEDLEINATABLE: Exploring Long-Context Capability of Large Language Models towards
处理结构化表格数据(尤其是大型长表格)是大型语言模型(LLMs)的一项基础但极具挑战性的任务。然而,现有的长上下文基准(如Needle-in-a-Haystack)主要聚焦非结构化文本,忽视了多样化结构化表格带来的挑战。同时,以往的表格基准主要关注需要高阶推理能力的下游任务,却忽略了模型对单个表格单元格的底层细粒度感知——这对于实际且稳健的基于LLM的表格应用至关重要。原创 2026-01-02 10:00:00 · 17 阅读 · 0 评论 -
2024_NIPS_Spatially-aware Weights Tokenization for NeRF-Language Models
本文聚焦神经辐射场(NeRF)与自然语言的交互问题,提出了一套包含自监督框架、多模态大模型和专用数据集的完整解决方案。核心是通过提取NeRF权重中的空间感知令牌,实现对3D物体细粒度细节和空间关系的语言交互。背景:现有NeRF-语言模型(如LLaNA)依赖全局表征,无法支持空间推理和细粒度理解,而传统空间感知令牌化方法不适用于NeRF权重的分布式空间信息。核心方案:提出weights2space自监督框架,通过新型Transformer元编码器将NeRF权重转化为空间感知令牌;原创 2026-01-01 10:00:00 · 164 阅读 · 0 评论 -
2024_NIPS_Curriculum Design for Trajectory-Constrained Agent: Compressing Chain-of-Thought Tokens in
训练智能体在部署期间遵守严格约束(如有限的资源预算或严苛的安全要求)是一项重大挑战,尤其是当这些约束导致任务复杂化时。本文提出一种课程学习策略,通过在训练过程中逐步收紧约束,使智能体能够渐进式掌握部署要求。受无约束强化学习(RL)中自定节奏学习技术的启发,我们的方法首先在简化版约束上进行训练,然后逐步引入完整的部署条件,从而实现向复杂环境的平稳过渡。我们在二叉树马尔可夫决策过程(MDP)中对RL智能体进行了理论分析,证明该课程策略相比从一开始就施加轨迹约束的基线方法,能够加速训练过程。原创 2026-01-03 08:15:00 · 105 阅读 · 0 评论 -
2024_NIPS_ReplaceMe: Network Simplification via Depth Pruning and Transformer Block Linearization
该研究提出了一种名为ReplaceMe的无训练深度剪枝方法,核心目标是在不进行额外训练或微调(无“修复”步骤)的前提下,通过线性变换替代Transformer模型中的连续块,实现模型压缩并保持高性能。我们提出了ReplaceMe,一种广义的无训练深度剪枝方法,该方法能通过线性操作有效替代Transformer块,同时在低压缩比下保持高性能。与需要额外训练或微调的传统剪枝方法不同,我们的方法仅需少量校准数据集来估计线性变换,该变换可近似替代被剪枝的块。原创 2026-01-02 09:15:00 · 222 阅读 · 0 评论 -
2024_NIPS_Semi-off-Policy Reinforcement Learning for Vision-Language Slow-Thinking Reasoning
增强大型视觉语言模型(LVLMs)的视觉慢思考推理能力,对于解决复杂多模态任务至关重要。然而,由于LVLMs主要通过视觉-语言对齐训练,采用在线策略强化学习(RL)培养慢思考能力面临挑战——其采样空间受限于模型初始能力。离线策略RL提供了突破当前策略的途径,但直接从外部模型蒸馏轨迹可能因模型间视觉感知能力不匹配而导致视觉幻觉。为解决这些问题,本文提出SOPHIA,一种简单且可扩展的半离线策略强化学习框架,用于视觉-语言慢思考推理。原创 2026-01-02 08:15:00 · 134 阅读 · 0 评论 -
2024_NIPS_A Reinforcement Learning-based Bidding Strategy for Data Consumers in Auction-based
该研究聚焦于拍卖式联邦学习(AFL)中数据消费者(DCs)的竞价策略问题,核心目标是解决现有静态竞价方法难以适应动态AFL市场的缺陷。研究背景:联邦学习(FL)受隐私保护需求推动快速发展,AFL作为FL激励机制的重要分支,通过拍卖形式协调数据所有者(DOs)与数据消费者(DCs)的协作,需解决DCs在预算约束下高效选择DOs并竞价的问题。现有DC端竞价方法多为静态函数,依赖历史数据 heuristic 推导参数,无法应对AFL市场中DOs arrival、DCs竞争等动态变化。核心方法(RLB-AFL)原创 2026-01-05 08:15:00 · 118 阅读 · 0 评论 -
2024_NIPS_Don’t Just Chase “Highlighted Tokens” in MLLMs: Revisiting Visual Holistic Context Retenti
该研究针对多模态大语言模型(MLLMs)因依赖大量视觉token导致的高计算开销问题,提出了视觉token剪枝框架HoloV。现有基于注意力的剪枝方法易保留语义相似token,高剪枝率下性能大幅下降,而HoloV从整体视角出发,通过在不同空间crop上自适应分配剪枝预算,保留全局视觉上下文而非孤立显著特征,在大幅减少token数量的同时维持任务相关信息。实验验证了HoloV在多种任务、模型架构和剪枝率下的优越性,例如LLaVA1.5搭配HoloV剪枝88.9%视觉token后仍保持95.8%的原始性能。原创 2026-01-05 07:15:00 · 138 阅读 · 0 评论 -
2025-NIPS-Structure-Aware Cooperative Ensemble Evolutionary Optimization on Combinatorial Problems
该研究聚焦于图结构组合优化问题(如影响力最大化、网络拆解、旅行商问题等),提出了一种融合多模态大语言模型(MLLMs)、图稀疏化、协同进化优化和集成策略的结构感知进化优化框架。问题背景:图结构组合优化问题(NP难)依赖进化算法探索解空间,但传统编码(二进制、数值型)忽略网络结构上下文;MLLMs虽能处理多模态信息,但大规模网络可视化杂乱、单一稀疏化视图存在偏差、对网络布局敏感,影响优化效果。核心技术方案图稀疏化。原创 2025-12-31 08:15:00 · 499 阅读 · 0 评论
分享