- 博客(470)
- 收藏
- 关注
原创 【AI论文】MiniCPM4:在终端设备上实现超高效的大型语言模型(LLMs)
本文提出MiniCPM4,一种专为终端设备优化的高效大型语言模型。通过模型架构(InfLLMv2稀疏注意力)、训练数据(UltraClean清洗策略和UltraChatv2微调数据集)、训练算法(ModelTunnelv2预训练策略搜索)和推理系统(CPM.cu集成框架)四个维度的创新,实现了仅用8万亿训练令牌的高效性能。评估显示,0.5B和8B参数的MiniCPM4版本在基准测试中优于同规模开源模型,长序列处理速度显著提升。该模型已成功应用于调查生成和工具使用等场景,展现了终端部署的实用性。研究局限包括模
2025-06-13 18:00:00
681
原创 【AI论文】灵枢:一个用于统一多模态医学理解与推理的通用基础模型
摘要:本研究针对多模态大语言模型(MLLMs)在医疗领域应用的局限性,提出了一种全面解决方案。团队开发了Lingshu医学专业MLLM,通过创新的四阶段训练框架(包括医学对齐、指令微调和强化学习)提升模型性能。研究构建了包含丰富医学知识的多模态数据集,并建立了MedEvalKit统一评估体系。实验表明,Lingshu-32B在多模态问答、文本问答和报告生成任务中表现优异,平均准确率达66.6%,显著优于开源模型。研究也探讨了强化学习对医学推理的有限影响,指出未来需改进数据质量、评估框架和后训练技术。
2025-06-13 12:00:00
897
原创 【AI论文】强化预培训
摘要:本研究提出强化预训练(RPT)新范式,将传统下一个标记预测任务重构为基于强化学习的推理任务。通过引入前缀匹配奖励机制,利用OmniMATH数学数据集训练14B参数模型,RPT显著提升了语言模型的推理能力和预测准确性。实验表明:(1)在高难度标记预测上优于基线模型;(2)具有良好计算扩展性;(3)为后续强化微调提供更优基础;(4)在MMLU-Pro等基准测试中展现零样本推理优势。尽管当前研究受限于数学领域数据和模型规模,但RPT展现的潜力为语言模型预训练开辟了新方向,未来可拓展至多领域数据和大规模模型验
2025-06-13 07:00:00
955
原创 【AI论文】利用自注意力机制实现大型语言模型(LLMs)中依赖于输入的软提示
本文提出了一种基于自注意力机制的输入依赖软提示技术ID-SPAM,用于实现大型语言模型的高效微调。该方法通过动态生成与输入内容相关的软提示,显著降低了计算成本。实验证明,ID-SPAM在GLUE和SuperGLUE基准任务中性能优于现有方法,并展现出良好的零样本领域迁移能力。虽然仍存在计算资源限制和参数优化等挑战,但该方法为参数高效微调提供了新思路,未来可扩展应用于更大规模模型和多模态场景。
2025-06-12 18:00:00
727
原创 【AI论文】少数中的真相:高价值数据选择以实现高效的多模态推理
摘要:本研究挑战了"提升多模态推理必须依赖大规模数据"的传统观念,提出推理激活潜力(RAP)数据选择范式。通过因果差异估计器(CDE)消除依赖语言先验的样本,利用注意力置信度估计器(ACE)剔除无关标记主导的样本,并引入难度感知替换模块(DRM)增强数据复杂性。实验表明,RAP方法仅需9.3%训练数据即可达到或超越完整数据集性能,同时降低43%计算成本。该成果为高效多模态模型训练提供了新思路,代码已开源(Github/Huggingface)。论文链接:2506.04755
2025-06-12 12:00:00
996
原创 【AI论文】明天还会是真的吗? 多语言常青问题分类,提高可信赖的 QA
《EverGreenQA:评估语言模型对问题时间性的编码能力》 摘要: 本研究针对大型语言模型(LLM)问答中的幻觉问题,首次系统探究了问题时间性(常青/可变)对模型性能的影响。团队构建了首个多语言常青QA数据集EverGreenQA(4757个样本,覆盖7种语言),包含人工标注的常青标签。通过对12个现代LLM的测试发现:1)模型显式识别常青问题的能力差异显著,LLaMA3.1-70B表现最佳;2)不确定性指标与常青性存在微弱相关性。研究开发了轻量级分类器EG-E5,在常青分类任务上达到SOTA,并验证了
2025-06-12 07:00:00
694
原创 【AI论文】Qwen3 嵌入:通过基础模型推进文本嵌入和重新排序
在这项工作中,我们介绍了Qwen3 Embedding系列,这是其前身GTE-Qwen系列在文本嵌入和重新排序能力方面的一项重大进步,建立在Qwen3基础模型之上。 利用Qwen3 LLM在多语言文本理解和生成方面的强大功能,我们的创新多阶段训练管道将大规模无监督预训练与高质量数据集上的监督微调相结合。
2025-06-11 18:00:00
1044
原创 【AI论文】具备长期空间记忆能力的视频世界模型
新兴世界模型根据动作(如相机移动和文本提示等控制信号)自回归地生成视频帧。 由于时间上下文窗口大小有限,这些模型在重访期间往往难以保持场景的一致性,从而导致对先前生成的环境的严重遗忘。 受人类记忆机制的启发,我们引入了一个新的框架,通过基于几何学的长期空间记忆来增强视频世界模型的长期一致性。 我们的框架包括从长期空间记忆中存储和检索信息的机制,我们策划了自定义数据集,以训练和评估具有显式存储的3D记忆机制的世界模型。
2025-06-11 12:00:00
665
原创 【AI论文】RoboRefer:在机器人视觉语言模型中通过推理实现空间参照
空间参照是体现机器人与3D物理世界交互的基本能力。 然而,即使使用强大的预训练视觉语言模型(VLM),最近的方法仍然无法准确理解复杂的3D场景,也无法动态推理指令指示的交互位置。 为此,我们提出了RoboRefer,这是一种3D感知的VLM,可以通过监督式微调(SFT)集成一个解耦但专用的深度编码器,首先实现精确的空间理解。 此外,RoboRefer通过强化微调(RFT)推进了广义多步空间推理,并针对空间指代任务量身定制了度量敏感的过程奖励函数。
2025-06-11 07:00:00
836
原创 【AI论文】SeedVR2:通过扩散对抗后训练实现一步式视频修复
基于扩散的视频恢复(VR)的最新进展表明,视觉质量得到了显著改善,但在推理过程中产生了高昂的计算成本。 虽然几种基于蒸馏的方法已经显示出一步式图像恢复的潜力,但将现有方法扩展到VR仍然具有挑战性,而且尚未得到充分探索,特别是在处理现实世界中的高分辨率视频时。 在这项工作中,我们提出了一种基于扩散的一步式VR模型,称为SeedVR2,它针对真实数据进行对抗性VR训练。 为了在单个步骤中处理具有挑战性的高分辨率VR,我们对模型架构和训练过程进行了几项增强。
2025-06-10 18:00:00
876
原创 【AI论文】ComfyUI-Copilot:自动化工作流开发的智能助手
我们介绍了ComfyUI-Copilot,这是一个大型语言模型驱动的插件,旨在提高ComfyUI的可用性和效率,ComfyUI是一个用于人工智能驱动的艺术创作的开源平台。 尽管ComfyUI具有灵活性和用户友好的界面,但它会给新手带来挑战,包括文档有限、模型配置错误和工作流设计的复杂性。 ComfyUI-Copilot通过提供智能节点和模型建议,以及自动一键式工作流程构建,解决了这些挑战。 该系统的核心是采用分层多代理框架,包括一个用于任务委托的中央助理代理和用于不同用途的专业工作代理。
2025-06-10 12:00:00
1098
原创 【AI论文】OpenThoughts:推理模型的数据配方
推理模型在涉及数学、代码和科学的许多基准测试中取得了快速进展。 然而,关于推理的最佳训练方案仍然存在许多悬而未决的问题,因为最先进的模型通常依赖于专有数据集,几乎没有公开信息。 为了解决这个问题,OpenThoughts项目的目标是为训练推理模型创建开源数据集。 经过初步探索,我们的 OpenThoughts2-1M 数据集产生了 OpenThinker2-32B,这是第一个在公共推理数据上训练的模型,在 AIME 和 LiveCodeBench 等标准推理基准上与 DeepSeek-R1-Distill-
2025-06-10 07:00:00
833
原创 【AI论文】CASS:Nvidia到AMD的数据、模型和基准测试的转换
摘要:本文提出CASS——首个跨架构GPU代码转译的大规模数据集及模型套件,涵盖CUDA↔HIP源代码和Nvidia SASS↔AMD RDNA3汇编级转换。数据集包含7万组已验证的代码对,填补了低级GPU代码可移植性研究的空白。基于此训练的领域特定语言模型在源代码翻译准确率达95%,汇编翻译达37.5%,显著超越GPT-4等基线模型。85%以上案例中生成代码保持原生性能。研究同时发布CASS-Bench评估基准,涵盖16个GPU领域并提供真实执行验证。所有资源开源以推动GPU编译器工具和LLM引导的硬件翻
2025-06-09 18:00:00
1010
原创 【AI论文】推进多模态推理:从优化的冷启动到分阶段强化学习
受到Deepseek-R1在复杂文本任务中卓越推理能力的启发,许多研究试图通过直接应用强化学习(RL)来激励多模态大语言模型(MLLM)中的类似能力。 然而,他们仍然难以激活复杂的推理。 在本文中,我们没有单独研究多模态强化学习,而是深入研究了当前的训练流程,并发现了三个关键现象。
2025-06-09 12:00:00
736
原创 【AI论文】AmbiK:厨房环境中模糊任务的数据集
作为具身智能体的一部分,大型语言模型(LLMs)通常用于根据用户的自然语言指令进行行为规划。 然而,在现实环境中处理含糊不清的指令仍然是LLM面临的一个挑战。 已经提出了各种用于任务模糊检测的方法。 然而,由于它们是在不同的数据集上测试的,并且没有通用的基准,因此很难对它们进行比较。因此,我们提出了AmbiK(厨房环境中的模糊任务),这是一个针对厨房环境中机器人的模糊指令的完全文本数据集。 AmbiK是在法学硕士的协助下收集的,并且经过了人类验证。
2025-06-09 07:00:00
1886
原创 【AI论文】MiMo-VL技术报告
我们开源了MiMo-VL-7B-SFT和MiMo-VL-7B-RL,这两款强大的视觉语言模型在一般视觉理解和多模态推理方面都提供了最先进的性能。 在40个评估任务中的35个任务上,MiMo-VL-7B-RL的表现优于Qwen2.5-VL-7B,在OlympiadBench上的得分为59.4,超过了高达78B参数的模型。 对于GUI接地应用,它在OSWorld-G上以56.1的速度设定了新的标准,甚至超过了UI-TARS等专业模型。
2025-06-08 17:01:45
1012
原创 【AI论文】VS-Bench:评估多智能体环境中的视觉语言模型(VLM)在策略推理与决策制定方面的能力
摘要:本文提出视觉战略基准(VS-Bench),用于评估视觉语言模型(VLMs)在多智能体环境中的战略能力。VS-Bench包含8个涵盖合作、竞争和混合动机的视觉环境,从战略推理(离线预测准确率)和决策制定(在线事件回报)两个维度进行评估。实验测试了14个主流VLMs,最佳模型预测准确率为47.8%,回报率为24.3%,显示当前模型与理想性能的显著差距。分析揭示了VLMs在多模态处理、社会行为和推理能力等方面的不足,为未来研究提供了方向。该基准开源可用,旨在推动战略多模态智能体的发展。
2025-06-08 12:00:00
879
原创 【AI论文】UniWorld:用于统一视觉理解和生成的高分辨率语义编码器
摘要: 本文针对统一视觉语言模型在图像感知与操纵任务上的局限性,分析了GPT-4o-Image利用语义编码器(非传统VAE)的特征提取机制,并提出新型框架UniWorld。该框架结合多模态大语言模型(Qwen2.5-VL)与对比语义编码器(SigLIP),通过两阶段训练(语义对齐预训练+生成微调)实现高效图像理解与编辑。实验表明,UniWorld仅用1%的BAGEL数据量即在ImgEdit-Bench等任务上超越基线,同时保持优异的生成能力。虽存在指令泛化与高分辨率处理不足的局限,但其开源模型(含权重与数据
2025-06-08 07:00:00
600
原创 【AI论文】反思、重试、奖励:通过强化学习实现大型语言模型的自我提升
摘要:本研究提出一种结合自我反思和强化学习(R3)的方法来提升语言模型性能。当模型任务失败时,首先生成自我反思分析错误原因,然后在包含反思的上下文中重试任务。若重试成功,则对反思阶段的输出进行强化奖励。实验在函数调用和数学方程求解任务上进行,结果显示:70亿参数模型经训练后表现优于720亿参数的基线模型,方程求解准确率提升34.7%,函数调用提升18.1%。该方法证明,通过自我反思机制,小型模型也能在有限反馈条件下显著提升复杂任务的表现,为构建更可靠的语言模型提供了新思路。
2025-06-07 18:00:00
1168
1
原创 【AI论文】推理健身房(REASONING GYM):基于可验证奖励的强化学习推理环境
我们引入了推理健身房(Reasoning Gym,简称RG),这是一个用于强化学习的推理环境库,其中包含可验证的奖励机制。该库提供了超过100个数据生成器和验证器,涵盖多个领域,包括代数、算术、计算、认知、几何、图论、逻辑以及各种常见游戏。其关键创新在于能够生成几乎无限的、复杂度可调的训练数据,这与以往大多数固定的推理数据集截然不同。这种程序化生成的方法使得我们能够在不同难度级别上进行持续评估。我们的实验结果表明,RG在评估和强化学习推理模型方面均表现出色。
2025-06-07 12:00:00
780
原创 【AI论文】SmolVLA:一种经济高效机器人视觉-语言-动作模型
摘要:本研究提出SmolVLA——一种小型高效的视觉语言动作模型,解决了现有视觉语言动作(VLA)模型参数量大、训练成本高的问题。通过优化模型架构设计(跳层处理、视觉标记缩减、交替注意力机制)和利用481个社区数据集进行预训练,SmolVLA参数少于5亿,能在单GPU训练并部署至消费级设备。创新性地引入异步推理堆栈实现感知-动作解耦,提升控制速率。实验表明,在LIBERO和Meta-World模拟基准中分别取得82.75%和68.24%的平均成功率,现实任务中78.3%成功率优于基线模型,且异步推理显著提升
2025-06-07 07:00:00
1614
1
原创 【AI论文】超越80/20规则:高熵少数令牌驱动LLM推理的有效强化学习
摘要:本研究通过标记熵视角探究强化学习可验证奖励(RLVR)提升大语言模型推理能力的机制。研究发现思想链推理中少数高熵标记(约20%)作为关键分叉点引导推理路径,而RLVR训练主要调整这些高熵标记的分布。实验表明仅对高熵标记进行策略梯度更新可显著提升性能:在Qwen3-32B上AIME'24/25准确率分别提升7.71%/11.04%,且优于基础模型的全梯度更新。相反,训练80%低熵标记会导致性能下降。这表明RLVR的效能源于优化决定推理方向的高熵表征。研究揭示了利用少数关键标记优化RLVR的新途径,为提升
2025-06-06 18:00:00
952
原创 【AI论文】硬测试:为大型语言模型(LLM)编程合成高质量测试用例
本文提出HARDTESTGEN测试用例合成管道及HARDTESTS数据集(含47k编程问题),用于提升大语言模型(LLM)代码验证能力。实验表明,该方案评估代码时精确度提升11.3%、召回率提升17.5%,在困难问题上精度提升可达40%。研究还验证了高质量测试用例对模型训练的显著优化效果。工作为LLM代码生成任务提供了有效的验证工具和训练资源。
2025-06-06 12:00:00
866
原创 【AI论文】面向数据合成的大型语言模型
摘要:本研究提出LLMSynthor框架,利用大型语言模型(LLMs)作为非参数Copula模拟器生成统计对齐的合成数据。传统方法受限于参数假设和高维数据处理,而LLMSynthor通过迭代合成循环和LLMProposalSampling技术,有效捕捉高阶依赖关系并提升采样效率。实验表明,该框架在电子商务、人口统计和流动性分析等隐私敏感领域,生成的数据具有高度统计保真度和实用性。尽管存在行为偏差和高维扩展性等局限,LLMSynthor为跨学科数据合成提供了创新解决方案。论文链接:2505.14752
2025-06-06 07:00:00
973
原创 【AI论文】不要只看一次:通过选择性视觉重访实现多模态交互推理
摘要:本研究提出v1扩展,一种轻量级多模态大语言模型(MLLM)增强方案,通过"点对点"复制机制实现推理过程中的动态视觉重访。传统MLLM存在单次视觉输入后纯记忆推理的局限,v1允许模型基于当前假设动态检索相关图像区域。研究构建了包含30万条多模态推理轨迹的v1g训练数据集,并在MathVista等三个数学推理基准测试中验证了其有效性。实验表明v1在细粒度视觉参考和多步推理任务上显著优于基线模型,最高准确率提升达11%。该成果为增强多模态推理能力提供了新思路,代码和数据已开源供后续研究。
2025-06-05 18:00:00
704
原创 【AI论文】时间盲症:为何视频语言模型无法像人类一样“看见”?
摘要:视觉语言模型(VLMs)在处理模糊空间信息的时间序列数据时面临显著挑战。本研究提出SpookyBench基准测试,通过类似噪声的帧序列评估模型时间感知能力。结果显示人类识别准确率超过98%,而所有先进VLMs准确率为0%,揭示模型过度依赖空间特征的局限性。实验表明,低空间信噪比条件下模型时间理解能力急剧退化,现有架构难以分离空间与时间处理。研究指出这一局限与模型规模无关,呼吁开发新的训练范式。SpookyBench的发布旨在促进时间模式识别研究,弥合人机视频理解差距。相关数据集和代码已开源。
2025-06-05 12:00:00
956
原创 【AI论文】AlphaOne:推理模型在测试时兼具慢思考与快思考能力
摘要:AlphaOne(α1)是一种新型通用框架,旨在优化大型推理模型的测试时推理过程。该框架通过引入α时刻概念,采用伯努利随机过程动态调度慢思考转换,并在关键阶段切换为快速推理模式,实现了推理效率与准确性的平衡。实验表明,α1在数学、编码和科学推理任务中显著提升模型性能(准确率提升4.65%-6.15%),同时减少约14%的计算资源消耗。该研究为动态调节AI推理过程提供了创新解决方案,其代码和论文已开源。
2025-06-05 07:00:00
1083
原创 【AI论文】ProRL:延长的强化学习扩展了大型语言模型的推理边界
摘要:本研究挑战了强化学习(RL)仅放大语言模型已有能力的观点,提出通过Prolonged RL(ProRL)训练可发现全新推理策略。ProRL方法整合KL散度控制、策略重置和多样化任务,在16,000 GPU小时的训练后,模型在数学、代码等任务上pass@1准确率提升14.7%-54.8%,特别解决了基础模型完全失败的场景。研究表明RL能持续扩展推理边界,其效果取决于基础模型能力和训练时长。虽然存在计算成本高等局限,但研究证明了RL对语言模型推理能力的有意义提升,为后续研究奠定基础。模型权重已开源。
2025-06-04 18:00:00
882
原创 【AI论文】VideoReasonBench:多模态大语言模型(MLLMs)能否执行以视觉为中心的复杂视频推理?
摘要:研究提出VideoReasonBench基准,用于评估多模态大语言模型(MLLMs)在以视觉为中心的复杂视频推理任务中的表现。该基准包含240个视频和1440个问题,要求模型完成三个层次的推理任务:回忆视觉信息、推断潜在状态和预测未来状态。评估18个先进MLLMs的结果显示,大多数模型表现不佳(GPT-4o准确率仅6.9%),但思维增强的Gemini-2.5-Pro达到56.0%准确率。研究表明扩展思维预算对提升视频推理性能至关重要,而现有基准在评估视觉推理能力方面存在不足。研究为视频推理领域提供了新
2025-06-04 12:00:00
1825
原创 【AI论文】ZeroGUI:零人力成本自动化在线GUI学习
摘要:ZeroGUI提出了一种创新的在线学习框架,用于自动化GUI代理训练,完全消除人工标注需求。该框架通过集成大型视觉语言模型(VLM)实现三大创新:自动任务生成、自动奖励评估和两阶段强化学习。实验表明,在OSWorld和AndroidLab环境中,ZeroGUI使基准模型UI-TARS-7B-DPO和Aguvis-7B的成功率分别提升14%-40%和63%-88%。框架采用GPT-4o生成多样化训练任务,Qwen2.5-VL-32B进行投票式奖励评估,并改进GRPO算法实现稳定训练。虽然存在VLM知识局
2025-06-04 07:00:00
1276
原创 【AI论文】VF-Eval:评估多模态大型语言模型(MLLM)在生成人工智能生成内容(AIGC)视频反馈方面的能力
摘要:本文提出VF-Eval基准测试,首次系统评估多模态大语言模型(MLLMs)在AI生成视频(AIGC)上的性能。研究构建包含4个任务(连贯性验证、错误识别、类型检测和推理评估)的评测框架,对13个先进MLLMs进行测试。关键发现表明:1)当前最佳模型GPT-4.1仍难以全面处理AIGC视频;2)模型在质量评估优于常识推理,道德违规识别存在明显短板;3)通过RePrompt实验验证人类反馈对齐可提升视频生成质量。研究揭示了MLLMs解读合成视频的局限性,为未来改进指明方向。
2025-06-03 18:00:00
1772
1
原创 【AI论文】空间多模态大型语言模型(Spatial-MLLM):增强基于视觉的空间智能中多模态大型语言模型(MLLM)的能力
摘要:本文提出Spatial-MLLM框架,通过双编码器架构(语义编码器+空间编码器)从纯2D视频中提取3D空间信息,结合创新的空间感知帧采样策略,在仅使用16帧输入的情况下,实现了超越Gemini-1.5Pro等大型模型的空间推理性能。研究构建了120k规模的数据集,采用监督微调和GRPO算法训练模型,在VSI-Bench等基准测试中达到SOTA水平。该工作为基于2D视觉的空间智能任务提供了新的解决方案,同时指出了模型规模扩展和实时性优化等未来方向。项目资源已开源。
2025-06-03 12:00:00
927
原创 【AI论文】攀登比登顶更能刻下智慧:论学习推理的嘈杂回报
摘要:本研究探讨了强化学习(RL)训练大型语言模型(LLM)时奖励噪声的影响及应对策略。实验表明,LLM对数学任务中高达40%的奖励噪声表现出显著鲁棒性,Qwen-2.5-7B模型的准确率仍可达72%。创新性地提出"推理模式奖励(RPR)"方法,仅奖励关键推理短语(如"首先,我需要")而不验证答案正确性,模型性能(70%准确率)接近传统严格验证方法(75%)。在开放NLP任务中,RPR有效校准了噪声奖励模型,将低准确率(65%)奖励模型下的性能提升至高准确率(85%)
2025-06-03 07:00:00
1178
原创 【AI论文】表R1:表格推理的推理时间扩展
在这项工作中,我们提出了第一个研究,探索推理时间缩放对表格推理任务的影响。 我们开发和评估了两种训练后策略来实现推理时间扩展:前沿模型推理轨迹的蒸馏和具有可验证奖励的强化学习(RLVR)。 对于蒸馏,我们引入了一个由DeepSeek-R1生成的大型推理跟踪数据集,我们用它来将LLM微调到Table-R1-SFT模型中。 对于RLVR,我们提出了特定于任务的可验证奖励函数,并应用GRPO算法来获得Table-R1-Zero模型。
2025-06-02 18:00:00
991
原创 【AI论文】视觉语言模型中的自我修正推理
摘要:本研究针对视觉语言模型(VLMs)面临的推理错误敏感、数据依赖性强和泛化能力有限等问题,提出了Sherlock自我纠正框架。通过分析现有VLMs的自我纠正能力,研究者设计了三阶段训练方法:利用少量标注数据冷启动,构建基于视觉扰动的偏好数据集进行离线训练,并进行在线迭代自我改进。实验表明,Sherlock在8个基准测试中平均准确率达65.4,优于现有方法且仅需20%的标注数据。该框架创新性地引入轨迹级自我纠正目标和动态贝塔调整,实现了推理与纠正能力的协同提升,为多模态推理任务提供了高效解决方案。研究代码
2025-06-02 12:00:00
1204
原创 【AI论文】Skywork Open Reasoner 1技术报告
摘要:本研究提出Skywork-OR1强化学习方案,显著提升长思维链(CoT)模型的推理能力。基于DeepSeek-R1-Distill模型,32B和7B参数模型在AIME和LiveCodeBench基准测试上分别提升15.0%和13.9%准确率。研究发现控制熵崩溃现象对性能提升至关重要,并通过多阶段训练、高温采样等策略优化训练过程。Skywork-OR1在多个基准测试上超越同类模型,同时开源了模型权重和训练代码以促进社区研究。研究还分析了训练数据质量、计算资源需求等局限性,为未来优化强化学习在语言模型中的
2025-06-02 07:00:00
613
原创 【AI论文】R2R:通过小型与大型模型之间的令牌路由高效导航发散推理路径
大型语言模型(LLMs)推理能力出色但成本高昂。研究发现仅有少量关键标记会导致小语言模型(SLMs)与LLMs的推理路径偏离。为此,我们提出罗马之路(R2R)神经令牌路由方法,通过轻量级路由器自动识别关键分歧标记,仅在这些标记上调用LLMs,其余仍由SLMs处理。实验表明,R2R在数学、编程和问答任务中,以5.6B平均激活参数实现了R1-7B模型1.6倍的准确率,性能媲美R1-32B的同时获得2.8倍加速。该方法在测试时间效率上达到了帕累托前沿,为平衡模型性能与推理成本提供了新思路。
2025-06-01 20:00:00
942
原创 【AI论文】SWE-rebench:一个用于软件工程代理的任务收集和净化评估的自动化管道
基于LLM的代理在越来越多的软件工程(SWE)任务中显示出有前景的能力。 然而,推进这一领域面临着两个关键挑战。 首先,高质量的训练数据稀缺,尤其是反映现实世界软件工程场景的数据,在这些场景中,代理必须与开发环境交互,执行代码并根据其行为结果调整行为。 现有的数据集要么局限于一次性的代码生成,要么包含小型的、人工策划的交互式任务集合,缺乏规模和多样性。
2025-06-01 18:45:00
943
原创 【AI论文】推理语言模型的强化学习熵机制
本文针对强化学习应用于大语言模型推理时出现的策略熵崩溃问题展开研究。通过实证分析发现,策略熵与下游性能存在R=-a*e^H+b的定量关系,表明熵耗尽会限制性能提升。理论分析揭示熵变化由行动概率与对数变化协方差驱动,实证验证了协方差驱动熵单调下降的机制。为此,作者提出Clip-Cov和KL-Cov两种熵控制方法,通过限制高协方差标记的更新保持策略多样性。实验证明这些方法能有效维持探索能力,在数学和编程任务上取得显著性能提升。研究为RL在LLM推理中的熵管理提供了新思路。(150字)
2025-06-01 14:23:46
927
原创 【AI论文】MME-推理:多模态大型语言模型(MLLMs)逻辑推理的综合基准
针对当前多模态大型语言模型(MLLMs)在逻辑推理评估中的不足,研究者提出了MME-Reasoning基准,全面覆盖归纳、演绎和溯因三种推理类型。研究结果显示,即使最先进的MLLMs(如Gemini-2.5-Pro-Thinking)在综合推理测试中表现有限(平均60.2%),且在不同推理类型上存在明显性能差异:演绎推理表现较好,而溯因推理较差。研究还发现"思维模式"能部分提升推理能力,但基于规则的强化学习效果不佳。该研究揭示了当前MLLMs在多样化逻辑推理中的关键局限性,为未
2025-05-30 07:00:00
1413
### 【图像生成领域】GPT-ImgEval:评估GPT-4o图像生成能力的全面基准测试系统设计与分析
2025-04-04
### 【计算机视觉】RISEBench:评估推理驱动的视觉编辑能力的基准测试系统设计与分析
2025-04-04
论文:人工智能基于脑启发智能的多模块智能体设计与挑战:从认知到协作的全基础智能体(Foundation Agents)领域的进展与挑战:从类脑智能到进化型、协作型及安全型系统面综述
2025-04-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人