推理能力跃迁!GLM-4.1V-Thinking推动认知智能演进;500万个分步思维数据示例!MathX-5M解锁数学推理新境界

当前多模态大模型正从「感知智能」向「认知智能」演进,此前存在研究尝试增强视觉语言模型的推理能力,但多局限在特定领域。虽有相关研究不断进行,但仍缺乏一种通用的多模态推理模型。

在此背景下,智谱 AI 联合清华大学共同提出了 GLM-4.1V-Thinking —— 一种旨在推进通用多模态理解和推理的视觉-语言模型(VLM),其核心创新在于「课程采样强化学习(RLCS)」策略。 不仅达到 10B 参数级别的视觉语言模型的最强性能,在 18 个榜单任务中持平甚至超过 8 倍参数量的 Qwen-2.5-VL-72B, 更实现了多模态模型的动态认知能力的跃迁——从被动「识图」升级为主动「思考」,在保持轻量化部署优势的同时解决推理痛点。

目前,HyperAI 超神经官网已上线了「GLM-4.1V-Thinking:通过可扩展的强化学习实现多功能多模态推理」教程,快来试试吧~

GLM-4.1V-Thinking:通过可扩展的强化学习实现多功能多模态推理

在线使用: https://go.hyper.ai/B3Vzs

7 月 7 日-7 月 11 日,hyper.ai 官网更新速览:

  • 优质公共数据集:10 个

  • 优质教程精选:7 个

  • 本周论文推荐: 5 篇

  • 社区文章解读:5 篇

  • 热门百科词条:5 条

  • 7 月截稿顶会:4 个

访问官网:hyper.ai

公共数据集精选

1. VisDrone 无人机检测数据集

VisDrone 是一个大规模无人机视觉目标检测与跟踪基准数据集,旨在帮助开发和评估目标检测、物体跟踪和图像分割等计算机视觉任务。该数据集包含使用无人机在中国各个城市的城市和郊区环境中采集的高分辨率图像和视频,涵盖 6 个类别(如人、车辆、建筑物、动物等)。

直接使用:https://go.hyper.ai/hQ5lh

在这里插入图片描述

数据集示例

2. MathX-5M 数学推理数据集

MathX 是一个数学推理数据集,专为基于指令的模型调优以及增强思维能力的现有模型的微调而设计。该数据集是迄今为止规模最大、筛选最全面的公开数学推理数据语料库,包括 500 万个精心筛选的分步思维数据示例,每个示例包含:问题陈述、详细推理过程、已验证的正确解决方案。

直接使用:https://go.hyper.ai/h0eLq

3. Fruit Classification 水果分类图像数据集

Fruit Classification 是一个水果分类图像数据集,旨在训练机器学习和深度学习模型进行水果的识别和分类。该数据集涵盖 101 种水果种类,每个类别包含约 400 张图片用于训练集,50 张图片作为验证集,50 张图片作为测试集。

直接使用:https://go.hyper.ai/a8gfG

在这里插入图片描述

数据集视图

4. Dog Breeds Image Dataset 狗品种图像数据集

Dog Breeds Image 是一个狗品种图像数据集,包含了不同狗品种的图像,旨在帮助训练和评估狗品种分类模型。该数据集包含数千张(超过 17,000 张)不同犬种的图像,超过 100 多个品种(梗犬、猎犬、獒犬、西班牙猎犬、比熊犬等),旨在帮助开发犬种识别系统。

直接使用:https://go.hyper.ai/DoFA3

在这里插入图片描述

数据集示例

5. Mushroom Species 蘑菇种类识别数据集

Mushroom 是一个蘑菇种类识别数据集。该数据集包含 100 多个蘑菇品种的图像,数据包含每种蘑菇的物理特征,如颜色、形状、气味、表面质感等,并标注了每个蘑菇是否有毒或可食用。这些图像展示了蘑菇在不同生长阶段和生长条件下的形态,使其成为细粒度分类任务的理想选择。

直接使用:https://go.hyper.ai/ws0pi

在这里插入图片描述

数据集视图

6. Text-to-Image-2M 文本转图像训练数据集

Text-to-Image-2M 是一个高质量的文本-图像对数据集,专为微调文本转图像模型而设计。该数据集包含约 200 万条样本,分为 2 个核心子集:data_512_2M(200 万张 512×512 分辨率图像及标注)和 data_1024_10K(1 万张 1024×1024 高分辨率图像及标注),为不同精度需求的模型训练提供灵活选择。

直接使用:https://go.hyper.ai/lTBaT

7. CIFAKE 合成图像识别数据集

CIFAKE 是一个识别 AI 生成图像的合成数据集,该数据集是一个二分类图像数据集,对增强图像处理技术的鲁棒性、提升 AI 生成内容的辨识能力,尤其在新闻传播、社交媒体监控等领域,具有重要的实际应用价值。数据集包含 60,000 张真实图像与 60,000 张 AI 合成图像,旨在评估计算机视觉模型识别 AI 生成图像的能力。

直接使用:https://go.hyper.ai/wxeA3

在这里插入图片描述

数据集示例

8. II-Medical SFT 公共医学推理数据集

II-Medical SFT 是一个公共医学推理数据集,旨在支持对用于医学推理任务的大型语言模型 (LLM) 进行监督微调。该数据集包含约 220 万条样本,覆盖多源医疗场景,满足复杂医疗模型的微调需求,旨在帮助模型发展关键能力,例如鉴别诊断、循证决策、患者沟通以及基于指南的治疗计划。

直接使用:https://go.hyper.ai/TGMjl

9. Traffic Sign Detection 交通标志检测数据集

Traffic Sign Detection 是一个交通标志检测数据集,适用于自动驾驶、驾驶辅助系统和智慧城市中的交通标志识别研究。数据集中包含约 9,000 张标注清晰的交通标志图像和约 4,969 张街景图像,涵盖多个国家的不同场景。图像包括多种类别,按照训练集、验证集和测试集进行划分,提供精确的边界框标注。

直接使用:https://go.hyper.ai/VfwUw

在这里插入图片描述

数据集示例

10. UniMate 机械超材料基准数据集

UniMate 数据集是一个机械超材料基准数据集,包含 15,000 个样本,每个样本包含三维拓扑结构、密度信息及其对应的均匀化力学性能,覆盖低密度(ρ=0.1)到中密度(ρ=0.5)场景,拓扑结构满足立方对称性和周期性

直接使用:https://go.hyper.ai/1ki2l

公共教程精选

本周汇总了 3 类优质公共教程

*大模型部署教程:1 个

*AI for Science 教程:2 个

*多模态教程:4 个

大模型部署教程

1. Ollama+Open WebUI 部署 Kimi-Dev-72B-GGUF

Kimi-Dev-72B 是一款专为软件工程任务设计的开源大语言模型。主要包括代码修复、测试代码生成(TestWriter)、自动化开发流程、开发工具集成等功能。

在线运行:https://go.hyper.ai/t6ps1

在这里插入图片描述

效果展示

AI for Science 教程

1. 使用 State 预测不同情境下的细胞扰动响应

State 模型能够预测干细胞、癌细胞和免疫细胞在药物、细胞因子或遗传干预下的响应情况。实验结果显示,该模型在预测干预后转录组变化的表现显著优于当前主流方法。

在线运行:https://go.hyper.ai/4AM6P

2. HealthGPT:AI 医疗助手

HealthGPT 是一款医疗大型视觉语言模型(Med-LVLM),通过异构知识适应技术实现医学视觉理解和生成任务的统一框架。采用创新的异构低秩适应(H-LoRA)技术,将视觉理解与生成任务的知识存储在独立的插件中,避免任务间的冲突。

在线运行:https://go.hyper.ai/KiBWB

多模态教程

1. GLM-4.1V-Thinking:通过可扩展的强化学习实现多功能多模态推理

GLM-4.1V-Thinking 是一种旨在推进通用多模态理解和推理的视觉-语言模型(VLM)。通过强化学习与课程采样(Reinforcement Learning with Curriculum Sampling, RLCS)相结合的方法,在包括 STEM 问题解决、视频理解、内容识别、编程、指代消解、基于 GUI 的代理和长文档理解等多样化的任务中实现全面的能力提升。

在线运行:https://go.hyper.ai/qPF8a

在这里插入图片描述

文本对话功能演示

在这里插入图片描述

图片理解功能演示

2. EX-4D:实现单目视频到自由视角生成

EX-4D 是新型 4D 视频生成框架,能从单目视频输入生成极端视角下的高质量 4D 视频。框架基于独特的深度防水网格(DW-Mesh)表示,显式建模可见和被遮挡区域,确保在极端相机姿态下保持几何一致性。框架用模拟遮挡掩码策略,基于单目视频生成有效的训练数据,用轻量级的 LoRA 基视频扩散适配器合成物理一致且时间连贯的视频。 EX-4D 在极端视角下的性能显著优于现有方法,为 4D 视频生成提供新的解决方案。

在线运行:https://go.hyper.ai/WyAPN

在这里插入图片描述

项目示例

3. MonSter:融合单目深度与立体视觉释放潜力

MonSter 将单目深度和立体匹配整合到一个双分支架构中,以迭代方式相互改进。迭代的相互增强使 MonSter 能够从粗略的对象级结构演进到像素级几何形状,充分发挥了立体匹配的潜力。

在线运行:https://go.hyper.ai/a9Ekd

4. Holo1-7B:自然语言精准定位 UI 元素

Holo1-7B 是一种动作视觉语言模型(VLM),用于 Surfer-H Web 代理系统。它旨在像人类用户一样与 Web 界面交互。作为更广泛的代理架构的一部分,Holo1 可以充当策略模型、定位模型或验证模型,帮助代理理解和操作数字环境。

在线运行:https://go.hyper.ai/6oQuF

在这里插入图片描述

Localization 示例

在这里插入图片描述

Navigation 示例

本周论文推荐

1. MemOS: A Memory OS for AI System

本文提出了 MemOS,这是一种将内存视为可管理系统资源的内存操作系统。它统一了纯文本、基于激活和参数级别的内存表示、调度和演化,实现了成本高效的存储和检索。作为基本单元,MemCube 封装了内存内容及其元数据,如出处和版本信息。MemCubes 可以随着时间进行组合、迁移和融合,从而实现不同类型内存之间的灵活转换,并将检索与基于参数的学习桥接起来。MemOS 建立了一个以内存为中心的系统框架,为 LLMs 带来了可控性、可塑性和可演化性,为其持续学习和个人化建模奠定了基础。

论文链接:https://go.hyper.ai/PgtHH

2. SingLoRA: Low Rank Adaptation Using a Single Matrix

本文提出了一种新的方法 SingLoRA,该方法通过将权重更新表示为单个低秩矩阵与其转置的分解来重新定义低秩适应。这种简单的设计内在地消除了矩阵间的尺度冲突,确保了优化过程的稳定性,并且大约将参数数量减少了一半。研究人员在无限宽度神经网络框架内对 SingLoRA 进行了分析,结果表明其设计本身就能保证特征学习的稳定性,并通过广泛的实验验证了这些优势。

论文链接:https://go.hyper.ai/kUu4u

3.Should We Still Pretrain Encoders with Masked Language Modeling?

研究表明,通过因果语言模型(CLM)预训练的解码器模型可以有效地重新用于编码器任务,但性能提升的原因尚不明确。本文通过一系列大规模、精心控制的预训练消融实验来探讨这一问题,实验性地证明了一种两阶段训练策略——先应用 CLM 再应用 MLM ——在固定计算资源预算下能够实现最佳性能,并且当从现有的大型语言模型生态系统中的预训练 CLM 模型初始化这一策略更具吸引力。

论文链接:https://go.hyper.ai/eN7kf

4. A Survey on Latent Reasoning

为了推动潜在推理的研究,本文提供了对新兴潜在推理领域的全面概述。通过探讨神经网络层作为推理计算基质的基础作用、研究多种潜在推理方法、讨论先进的范式(如通过掩码扩散模型实现的无限深度潜在推理),旨在澄清潜在推理的概念框架,并为 LLM 认知前沿的研究指明未来方向。

论文链接:https://go.hyper.ai/kIuD8

5.Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving

本文引入了 Agent KB,这是一种分层经验框架,通过一种新颖的“推理-检索-精炼”(Reason-Retrieve-Refine)管道实现了复杂的代理问题解决。研究结果表明,Agent KB 提供了一种模块化且不受框架限制的基础设施,使代理能够从过去的经验中学习,并将成功的策略推广到新任务中。

论文链接:https://go.hyper.ai/2wJPd

更多 AI 前沿论文:https://go.hyper.ai/iSYSZ

社区文章解读

1. 钱学森「灵境」 预言成真!上交/上体/清华等构建全球首个VR运动干预系统REVERIE,重塑青少年脑-身-心健康

上海交大研究团队联合上海体育大学、清华大学等创建了全球首个面向超重或肥胖青少年体重控制的 VR 智能运动干预系统「灵境」。利用深度强化学习驱动且基于 Transformer 架构的虚拟教练孪生智能体,提供安全、沉浸式的运动指导,其生物力学表现和运动心率响应与同类型的真实世界运动无显著差异。

查看完整报道:https://go.hyper.ai/Q3KKv

2. 专治AI审稿?论文暗藏好评提示词,谢赛宁呼吁关注AI时代科研伦理的演变

近日,来自全球 14 所高校的研究论文被曝出嵌入了隐藏指令,引导 AI 审稿人给出正面评价。这一报道在学术圈内引发激烈讨论,更是引起了人们对于利用 AI 审稿所带来的风险及伦理挑战的关注。谢赛宁团队的论文也被指暗藏好评提示词,他发布长文回应,并呼吁关注 AI 时代科研伦理的演变。

查看完整报道:https://go.hyper.ai/LZ0TJ

3. 新加坡国立大学基于多维度EHR数据实现细粒度患者队列建模,住院时间预测准确率提升16.3%

新加坡国立大学联合浙江大学提出了创新性的 NeuralCohort 方法,为 EHR 表征学习开辟了新的路径,充分释放 EHR 数据的潜能。其同时利用了局部队列内和全局队列间信息,这些关键要素在之前的电子健康记录分析研究中未得到充分关注。

查看完整报道:https://go.hyper.ai/1b8lG

4. AMD AI 架构师张宁:多视角解析 AMD Triton 编译器,助力开源生态建设

2025 Meet AI Compiler 第 7 期技术沙龙于 7 月 5 日在北京中关村圆满落幕。来自 AMD 的 AI 架构师张宁,在「助力开源社区,剖析 AMD Triton 编译器」为题的演讲中,围绕公司在开源社区的技术贡献,系统解读了 AMD Triton 编译器的核心技术、底层架构支撑及生态建设成果,为开发者深入理解高性能 GPU 编程与编译器优化提供了全面视角。本文为张宁老师的分享精华实录。

查看完整报道:https://go.hyper.ai/jJLD8

5. 在线教程丨一句话精准P图,FLUX.1 Kontext可实现图像编辑/风格迁移/文本编辑/角色一致性编辑

社交媒体与视觉内容主导的时代,「修图」已从设计技能演变为大众日常需求。 用户对便捷高效工具的渴望从未停止,“一句话P图”正随着技术的飞跃式进步逐渐成为现实。近日开源的 FLUX.1-Kontext-dev 仅凭 12B 参数规模便实现了媲美 GPT-image-1 等一众闭源模型的高性能。

查看完整报道:https://go.hyper.ai/EJIIa

热门百科词条精选

1. DALL-E

2. 倒数排序融合 RRF

3. 帕累托前沿 Pareto Front

4. 大规模多任务语言理解 MMLU

5. 对比学习 Contrastive Learning

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://go.hyper.ai/wiki

在这里插入图片描述

一站式追踪人工智能学术顶会:https://go.hyper.ai/event


以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值