Hugging Face 视觉语言小模型 SmolVLM 可在手机运行；OpenAI 推出智能体 Operator 联网执行任务

原创

于 2025-01-24 18:18:58 发布 · 1.1k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#智能手机

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq，@鲍勃

01 有话题的技术

1、Baichuan-M1-preview 发布！集齐语言、视觉、搜索三大推理能力，解锁医疗循证模式

1 月 24 日，作为 AI 六小虎之一的百川智能， 正式发布了首个深度思考模型 Baichuan-M1-preview ，该模型是国内唯一一个同时具备语言推理、视觉推理、搜索推理三项能力的模型，并且解锁了医疗循证模式，不仅各项推理能力行业领先，在医疗健康场景上更是一骑绝尘。

语言推理方面，在 AIME 和 Math 等数学基准测试，以及 LiveCodeBench 代码任务上，Baichuan-M1-preview 的成绩均超越了 o1-preview 等模型；视觉推理方面，在 MMMU-val、MathVista、MathVision 等权威视觉评测中，Baichuan-M1-preview 同样领先于 GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview 等模型。

据介绍，Baichuan-M1-preview 的深度思考能力在多个领域具备独特优势：

学术研究：在数学推理和跨学科知识处理方面表现卓越，能够解决复杂理论问题；
软件开发：深入理解代码结构，提供精准的优化建议和调试方案，显著提升开发效率；
医疗健康：通过严谨的病程推理，协助医生进行诊断决策，为患者提供全面的分析和个性化建议。（@ InfoQ）

2、智元机器人联合北大，推出通用机器人操作框架

在这里插入图片描述

1 月 23 日，智元机器人与北京大学联合实验室宣布，推出通用机器人操作框架「OmniManip」。据了解，智元机器人与北京大学联合实验室为解决「视觉语⾔基础模型（VLMs）如何应⽤于机器⼈，以实现通⽤操作」这一具身智能领域的难题，携⼿提出了「OmniManip」架构。「OmniManip」基于以对象为中⼼的 3D 交互基元，将 VLM 的高层次推理能力转化为机器⼈的低层次高精度动作。针对