AI 论文周报丨DeepSeekMath-V2/医学视频图像分割/3D 重建/Qwen3-VL……一文速览 AI 前沿

原创于 2025-12-06 11:01:13 发布 · 373 阅读

CC 4.0 BY-SA版权

文章标签：

大语言模型在数学推理方面取得了显著进展，通过采用强化学习方法，以正确最终答案作为奖励信号来扩展推理能力，在一年内便实现了从表现不佳到在 AIME 和 HMMT 等定量推理竞赛中达到饱和水平的飞跃。但这一方法仍面临根本性局限：正确的答案并不意味着推理过程正确，并且许多数学任务（如定理证明）要求严格的逐步推导过程，而非仅给出数值答案，因此依赖最终答案奖励的机制在此类任务中并不适用。

为突破深度推理瓶颈，DeepSeek 训练了准确且忠实的基于大型语言模型的验证器，用于评估定理证明。随后将其作为奖励模型训练证明生成器，使其能自我修正。通过扩展验证资源自动标注难例，持续提升验证器能力，形成生成与验证的增强循环。最终模型 DeepSeekMath-V2 在 IMO 2025、CMO 2024 获金牌级成绩，Putnam 2024 获 118/120分的亮眼表现。

论文链接：https://go.hyper.ai/wftNU

最新 AI 论文：https://go.hyper.ai/hzChC

为了让更多用户了解学术界在人工智能领域的最新动态，HyperAI超神经官网（hyper.ai）现已上线「最新论文」板块，每天都会更新 AI 前沿研究论文。以下是我们为大家推荐的 5 篇热门 AI 论文，一起来速览本周 AI 前沿成果吧~

COSCon’25 第十届中国开源年会将于 2025 年 12 月 6——7 日在北京市海淀区丽亭华苑酒店举办。HyperAI超神经将作为联合出品社区，将在大会期间举办「产研开源协同论坛」。与此同时，HyperAI超神经将为大家带来为期两天的主论坛直播，快来预约围观吧！

本周论文推荐

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

大语言模型在数学推理方面取得了显著进展，这不仅为人工智能提供了一个重要的测试平台，若进一步发展，还可能对科学研究产生深远影响。但当前仍面临根本性局限：追求更高的最终答案准确率，并不能解决一个核心问题——正确的答案并不意味着推理过程正确。因此本文提出 DeepSeekMath-V2，在大规模测试计算资源的支持下，展现出强大的定理证明能力：在 2025 年国际数学奥林匹克和 2024 年中国数学奥林匹克中取得金牌级成绩，在 2024 年普特南数学竞赛中获得接近满分的 118/120分。

论文链接：https://go.hyper.ai/wftNU

lMO-ProofBench 测试结果

MedSAM3: Delving into Segment Anything with Medical Concepts

本文提出 MedSAM-3——一种可接受文本提示的医学图像与视频分割模型。通过在配以语义概念标签的医学图像数据上对 SAM 3 架构进行微调，MedSAM-3 实现了医学可提示概念分割（Promptable Concept Segmentation, PCS），使用户能够通过开放词汇的文本描述精准定位解剖结构，而不仅依赖于几何提示。

论文链接：https://go.hyper.ai/0EWF0

模型架构概述

SAM 3D: 3Dfy Anything in Images

本文提出 SAM 3D，一种用于视觉引导的三维物体重建的生成模型，能够仅从单张图像中预测物体的几何结构、纹理信息及场景布局。该模型在自然图像场景中表现尤为出色，这类场景中遮挡和场景杂乱现象普遍，上下文提供的视觉识别线索起着更为关键的作用。

论文链接：https://go.hyper.ai/8GqYm

模型概述

Qwen3-VL Technical Report

本文推出 Qwen3-VL，这是迄今为止 Qwen 系列中能力最强的视觉语言模型，在广泛的多模态基准测试中均展现出卓越性能。该模型原生支持长达 256K tokens 的交错上下文，能够无缝融合文本、图像与视频信息。模型家族涵盖密集架构（2B/4B/8B/32B）与混合专家架构（30B-A3B/235B-A22B），以适应不同场景下的延迟与质量权衡需求。

论文链接：https://go.hyper.ai/yeOZT

模型架构

Meshed-Memory Transformer for Image Captioning

本文提出 M²——一种面向图像字幕生成的带记忆网格 Transformer（Meshed Transformer with Memory）。该架构在图像编码与语言生成两个阶段均实现改进：一方面，通过融合学习到的先验知识，构建图像区域间多层次关系表示；另一方面，在解码阶段采用类网格的连接结构，有效利用低层与高层特征。

论文链接：https://go.hyper.ai/eIKYK