Hugging Face 视觉语言小模型 SmolVLM 可在手机运行;OpenAI 推出智能体 Operator 联网执行任务

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq,@鲍勃

01 有话题的技术

1、Baichuan-M1-preview 发布!集齐语言、视觉、搜索三大推理能力,解锁医疗循证模式

1 月 24 日,作为 AI 六小虎之一的百川智能, 正式发布了首个深度思考模型 Baichuan-M1-preview ,该模型是国内唯一一个同时具备语言推理、视觉推理、搜索推理三项能力的模型,并且解锁了医疗循证模式,不仅各项推理能力行业领先,在医疗健康场景上更是一骑绝尘。

语言推理方面,在 AIME 和 Math 等数学基准测试,以及 LiveCodeBench 代码任务上,Baichuan-M1-preview 的成绩均超越了 o1-preview 等模型;视觉推理方面,在 MMMU-val、MathVista、MathVision 等权威视觉评测中,Baichuan-M1-preview 同样领先于 GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview 等模型。

据介绍,Baichuan-M1-preview 的深度思考能力在多个领域具备独特优势:

  • 学术研究:在数学推理和跨学科知识处理方面表现卓越,能够解决复杂理论问题;

  • 软件开发:深入理解代码结构,提供精准的优化建议和调试方案,显著提升开发效率;

  • 医疗健康:通过严谨的病程推理,协助医生进行诊断决策,为患者提供全面的分析和个性化建议。(@ InfoQ)

2、智元机器人联合北大,推出通用机器人操作框架

在这里插入图片描述

1 月 23 日,智元机器人与北京大学联合实验室宣布,推出通用机器人操作框架「OmniManip」。据了解,智元机器人与北京大学联合实验室为解决「视觉语⾔基础模型(VLMs)如何应⽤于机器⼈,以实现通⽤操作」这一具身智能领域的难题,携⼿提出了「OmniManip」架构。「OmniManip」基于以对象为中⼼的 3D 交互基元,将 VLM 的高层次推理能力转化为机器⼈的低层次高精度动作。针对

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值