优秀论文拆解
文章平均质量分 81
欢迎来到图灵学术计算机科研圈,图灵学术计算机科研圈专注计算机领域,分享国内外计算机科研领域的SCI、、CCF顶会顶刊高质量论文的拆解!
计算机科研圈
欢迎来到图灵学术计算机科研圈,图灵学术计算机科研圈专注计算机领域,分享国内外计算机科研领域的最新资讯,不定期分享申博、科研、留学的干货,SCI论文、CCF会议、顶尖RA机会、博士保录名额实时更新,欢迎关注开启你的百万年薪之旅!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
全新多模态数学推理数据集 × 首个综合数学知识体系:We-Math 2.0
本文介绍了We-Math2.0系统,这是一个针对多模态数学推理任务提出的创新解决方案。研究团队构建了包含5个层级、491个知识点、1819个知识原理的完整知识体系,并开发了MathBook-Standard和MathBook-Pro两个数据集,采用"一题多图"和"一图多题"策略进行数据扩展。原创 2025-08-28 13:47:55 · 980 阅读 · 0 评论 -
英伟达再出手,新型混合架构模型问世,两大创新实现53.6倍吞吐提速
英伟达推出新型高效语言模型Jet-Nemotron,通过两项核心技术突破实现性能飞跃:1)PostNAS后训练架构搜索方法,可在预训练模型上灵活优化注意力模块配置;2)创新的JetBlock线性注意力模块,显著提升计算效率。实验显示,2B参数规模的Jet-Nemotron在MMLU-Pro基准上超越Qwen3等主流模型,同时生成吞吐量提升高达47倍,在H100GPU上实现21-53.6倍加速。该研究突破了传统Transformer架构的效率瓶颈,为轻量化大模型发展提供了新范式。原创 2025-08-27 14:18:04 · 646 阅读 · 0 评论 -
Karpathy氛围编程最新指南!三层AI编程结构:顺境Cursor,逆境Claude,绝境GPT-5 Pro
Karpathy发布最新VibeCoding指南,提出AI编程三层结构:1)Cursor负责基础补全与修改(占75%工作量);2)Claude/Codex用于较大功能块实现,特别适合陌生领域;3)GPT-5Pro解决最复杂问题,如深度调试和文献研究。他指出当前AI工具存在代码臃肿、风格不佳等问题,需要人工优化。原创 2025-08-26 10:57:26 · 717 阅读 · 0 评论 -
开源且能能推理能训练,三个月零基础手搓一块TPU,
谷歌TPU作为AI专用芯片的典型代表,通过脉动阵列等创新设计显著提升了机器学习效率。近日,加拿大西安大略大学的工程师团队开发出开源项目TinyTPU,成功复刻了TPU的核心功能。该项目采用模块化设计,包含脉动阵列、统一缓冲区和向量处理单元等组件,支持从推理到训练的全流程。团队通过手工计算神经网络运算,实现了包括矩阵乘法、反向传播等关键算法,并创新性地采用双缓冲机制提升性能。这个由非专业学生完成的项目,不仅验证了TPU设计理念,也为AI芯片研究提供了有价值的开源参考。原创 2025-08-25 14:04:04 · 597 阅读 · 0 评论 -
击败Meta登榜首:中国人民大学团队推理增强的文档排序模型ReasonRank来了
中国人民大学刘文涵博士团队提出推理型文档排序模型ReasonRank,通过自动化数据合成框架生成13K高质量推理密集型训练数据,并设计两阶段训练(SFT+RL)结合多视角排序奖励机制(NDCG@10/Recall@10/RBO)。原创 2025-08-22 14:45:00 · 731 阅读 · 0 评论 -
dLLM的「Free Lunch」浙江大学&蚂蚁集团利用中间结果显著提升扩散语言模型
浙江大学团队针对扩散大语言模型(dLLM)提出创新优化方法。研究发现dLLM存在"先对后错"现象,即中间迭代可能生成正确答案却在后续被推翻。原创 2025-08-21 15:15:27 · 703 阅读 · 0 评论 -
香港大学和快手可灵团队提出场景一致的交互式视频世界模型,上下文记忆力媲美Genie3,且问世更早
港大与快手团队提出ContextasMemory方法,通过将历史视频帧作为记忆条件,实现了长视频生成的场景一致性。该技术创新性地采用基于相机轨迹视场的记忆检索机制,显著提升了计算效率。实验显示其效果接近DeepMind未开源的Genie3,原创 2025-08-21 15:11:22 · 802 阅读 · 0 评论 -
强化学习之父Richard Sutton最新演讲揭示OaK架构:通向超级智能的八步愿景
强化学习之父、2024 年 ACM 图灵奖得主 Richard Sutton 今天分享了他在 RLC 2025(强化学习会议) 和 AGI 2025 上发表的远程演讲《OaK 架构:一个基于经验的超级智能愿景》。原创 2025-08-20 14:38:29 · 1285 阅读 · 0 评论 -
FlashCommunication V2登场!突破「任意比特」通信瓶颈,加速大模型分布式训练与部署
论文《FlashCommunicationV2》提出创新通信技术,解决大模型分布式训练中的带宽瓶颈问题。原创 2025-08-20 13:22:27 · 715 阅读 · 0 评论 -
你别不信!深度学习这一块最容易水论文的还得是特征提取模块!
深度学习领域创新研究新思路:特征提取模块改良成为论文高效产出路径。原创 2025-08-19 16:24:28 · 1222 阅读 · 0 评论 -
ICCV 2025 | 首个3D动作游戏专用VLA模型,打黑神话&只狼超越人类玩家
淘天集团未来生活实验室团队提出的CombatVLA模型在3D动作角色扮演游戏中展现出卓越性能,该3B参数规模模型通过动作思维(AoT)序列训练,在《黑神话:悟空》《只狼》等游戏中实现了实时决策能力。原创 2025-08-19 16:18:29 · 825 阅读 · 0 评论 -
突破Claude-4编程上限,清华大学自进化Agent框架拿下新SOTA,底模越好性能越高,已开源
中科院、清华大学等机构联合提出SE-Agent自进化框架,突破大模型多步推理瓶颈。原创 2025-08-19 16:15:49 · 1210 阅读 · 0 评论 -
CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
在实验中,世界模型的训练数据会与策略模型的训练数据区分开,从而验证世界模型的泛化能力。具体而言,LaDi-WM 利用预训练的视觉基础模型 (Vision Fundation Models) 来构建隐空间表示,该表示同时包含几何特征(基于 DINOv2 构造)和语义特征(基于 Siglip 构造),并具有广泛的通用性,有利于机器人操作的策略学习以及跨任务的泛化能力。2. 一种基于世界模型预测迭代优化的扩散策略:利用世界模型生成未来预测的状态,将预测的状态反馈给策略模型,迭代式地优化策略输出。原创 2025-08-18 17:27:46 · 364 阅读 · 0 评论 -
CVPR 2025|英伟达联合牛津大学提出面向3D医学成像的统一分割基础模型
英伟达与牛津大学联合开发的VISTA3D成为首个在3D医学影像领域实现全流程支持的统一基础模型。原创 2025-08-18 17:26:30 · 1721 阅读 · 0 评论 -
开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍机器之心 2025年08月18日 11:22
上海交通大学DENGLab与UCSD联合提出DiscreteDiffusionForcing(D2F)技术,突破扩散大语言模型(dLLMs)的推理瓶颈。原创 2025-08-18 17:23:29 · 1260 阅读 · 0 评论 -
多突触神经元模型问世,中国团队打造类脑计算新引擎,登上《自然·通讯》
国防科技大学与中科院团队在《自然·通讯》发表创新成果,提出多突触发放(MSF)脉冲神经元模型,突破传统SNN时空信息编码瓶颈。该模型模拟生物神经多突触特性,统一了LIF神经元和ReLU激活函数,在图像重建、动态识别等任务中性能显著提升,能耗降低2-3个数量级。团队已在国产芯片成功部署该模型,为边缘计算提供高效解决方案。研究获国家基金支持,代码已开源。原创 2025-08-16 12:45:00 · 282 阅读 · 0 评论 -
突破Transformer架构限制,上海交通大学发布全球首个类脑大语言模型BriLLM
上海交大赵海团队发布全球首个人脑启发大模型BriLLM,突破传统Transformer架构局限。原创 2025-08-14 17:28:32 · 1540 阅读 · 0 评论 -
联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
腾讯混元团队最新开源X-Omni模型,通过强化学习显著提升自回归图像生成的质量。该模型解决了传统方法在细节失真、语义偏差和文本渲染等方面的瓶颈,采用包含美学偏好、语义对齐和OCR准确性的多维度奖励系统,实现了高质量图像生成和精准指令遵循能力。研究成果已公开论文、代码及演示资源,为视觉理解与生成任务的深度耦合提供了新思路。原创 2025-08-10 23:54:23 · 353 阅读 · 0 评论 -
上海AI Lab、浙大EagleLab等提出RRVF:利用「验证非对称性」,只输入图片学习视觉推理
第一作者陈杨是浙江大学硕士生,研究方向为多模态大模型和推理,本工作完成于她在上海AI Lab实习期间,实习所在团队以Agent-Ready的知识为核心,实现「提取->结构化->推理」全链路,包括基于MLLM的文档理解、基于异质图网络的多模态知识表征、自主终身学习智能体等。此时,一个更强大的「视觉裁判」模型(论文中使用了 72B 的 Qwen2.5-VL)会介入,对比渲染图和原图,并生成定性的、结构化的自然语言反馈,例如:「图表类型正确,但颜色不匹配」、「网页布局基本正确,但缺少了一个按钮」。原创 2025-08-09 23:57:40 · 343 阅读 · 0 评论 -
多模态融合+迁移学习真香!顶会顶刊思路模仿一下,就能再来一篇!
大模型时代下,迁移学习与多模态融合成为研究热点。针对多模态模型全量微调成本高、模态对齐难等问题,近期研究聚焦模型高效迁移、动态融合框架等方向。三篇前沿论文分别提出。原创 2025-08-04 16:14:20 · 455 阅读 · 0 评论 -
ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法
西湖大学AGI实验室提出新型扩散模型加速方案EPD-Solver,融合数值求解、模型蒸馏与并行计算优势,可在3-5步采样内保持高质量图像生成。该方法采用轻量级蒸馏学习参数,并行计算梯度方向并加权融合,有效降低积分误差。原创 2025-08-03 22:06:43 · 408 阅读 · 0 评论 -
登上Nature正刊,哈佛等团队多模态医学图像创新突破!
我滴个神嘞!多模态医学影像又冲上Nature!确定不来了解一下?原创 2025-07-30 11:53:10 · 455 阅读 · 0 评论
分享