DeepSeek-V3.2正式版发布，阶跃星辰发布开源GUI智能体GELab-Zero,Meta AI推出Matrix框架

原创于 2025-12-02 11:32:40 发布 · 377 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#DeepSeek-V3.2 #Orchestrator #Step-Audio-R1 #GELab-Zero #Vidi2 #Matrix框架 #Pinokio5.0

AI资讯专栏收录该内容

7 篇文章

订阅专栏

1. DeepSeek-V3.2正式版发布：推理能力全球领先，Agent工具调用全面升级
DeepSeek正式发布V3.2与V3.2-Speciale两个版本，其中标准版在推理能力上达到GPT-5水平，显著优化输出效率；Speciale版专攻极致推理性能，在IMO、ICPC等顶级竞赛中斩获金牌，媲美Gemini-3.0-Pro。本次升级首次实现思考模式与工具调用的深度融合，在多项智能体评测中刷新开源模型成绩，同时提供官方应用端、API及开源模型下载，Speciale版临时API开放至2025年12月15日供研究使用。

技术报告：
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf
DeepSeek-V3.2：
HuggingFace:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2
ModelScope:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2
DeepSeek-V3.2-Speciale：
HuggingFace:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
ModelScope:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale

2. NVIDIA推出Orchestrator-8B：强化学习驱动的多工具高效控制模型
NVIDIA推出新方法ToolOrchestra，其核心是通过微调Qwen3-8B得到的8亿参数小型语言模型Orchestrator-8B，该模型以Transformer为结构，作为多工具使用代理的“大脑”，通过解析用户指令与偏好、生成推理过程并计划行动、以统一JSON格式调用工具的多轮交互流程完成任务，借助任务成功、效率及用户偏好组成的强化学习奖励机制优化工具选择，在基准测试中，其准确率（37.1%）高于GPT-5（35.1%），且平均成本（0.092美元）和耗时（8.2分钟）远低于GPT-5，有效解决了传统单一大型模型依赖导致的资源浪费问题，为复合AI系统构建提供了高效方案。
论文：
https://arxiv.org/pdf/2511.21689

3. StepFun AI 发布 Step-Audio-R1 音频大模型，以模态化推理蒸馏突破长推理链准确性瓶颈
StepFun AI 推出全新音频大语言模型 Step-Audio-R1，该模型基于 Qwen2 架构，通过创新的“模态化推理蒸馏”训练方法，要求模型基于音频证据而非文本替代进行推理，解决了当前音频 AI 模型处理长推理链时准确性下降的问题；其架构经音频编码器与适配器处理原始波形，搭配 Qwen2.5 32B 解码器生成文本，且推理过程中会明确区分思考与答案部分，在经过500万例样本的监督冷启动及强化学习训练后，该模型在多个音频理解与推理基准测试中表现优异，综合得分接近行业领先的 Gemini3 Pro 水平。
论文：
https://arxiv.org/pdf/2511.15848
GitHub：
https://github.com/stepfun-ai/Step-Audio-R1

4. 阶跃星辰发布开源GUI智能体GELab-Zero，赋能本地化智能应用开发
阶跃星辰正式推出首个完全开源的GUI智能体GELab-Zero，该产品由即插即用的推理工程基础设施与可本地运行的4B GUI Agent模型组成，支持在消费级硬件上低延迟运行，能通过一键启动功能简化设置流程，还具备多设备任务分发、实时交互轨迹记录及ReAct、Multi-Agent、定时任务等多种工作模式，在多项开源基准测试中表现优异，尤其适配真实移动场景，可有效保护用户隐私，为本地化智能应用开发提供高效便捷的解决方案。
GitHub：
https://github.com/stepfun-ai/gelab-zero/

5. 字节跳动发布120亿参数AI模型Vidi2
字节跳动推出专用于视频理解的多模态大语言模型Vidi2，其拥有120亿参数，具备精细时空定位（STG）功能，在超长视频理解等行业基准测试中表现领先，基于该模型开发的高光提取、智能剪切等自动化编辑工具已应用于TikTok的Smart Split功能，借助TikTok海量用户数据优势，该模型有望颠覆视频编辑行业，给传统AI公司带来竞争压力，目前Vidi2处于研究阶段，Demo即将发布。
论文：
https://www.alphaxiv.org/abs/2511.19529
项目主页：
https://bytedance.github.io/vidi-website/

6. Meta AI推出Matrix框架，革新多智能体合成数据生成
Meta AI推出去中心化的Matrix框架，该框架基于Ray集群的点对点智能体调度，将控制和数据流序列化为消息分布在不同队列处理，通过消息卸载等机制减少集群带宽占用与空闲时间，故障处理更局部化，相比传统依赖中心控制器的系统，在Collaborative Reasoner对话生成、NaturalReasoning数据集构建、Tau2-Bench工具使用轨迹评估等案例中，实现了2到15倍的令牌吞吐量提升，且保持了输出质量，有效解决了合成数据生成中GPU资源浪费、协调开销大、数据多样性受限等问题，为大型语言模型训练所需的合成对话、工具轨迹和推理链等数据提供了高效生成方案。
论文：
https://arxiv.org/pdf/2511.21686
GitHub：
https://github.com/facebookresearch/matrix

7. Pinokio5.0发布：以“本地云”+AI代理简化开源模型运行，硬件门槛成普及挑战
开发者“cocktail peanut”推出免费工具Pinokio5.0，定位为Vercel等云平台的本地替代方案，支持Windows、macOS和Linux系统，通过自动化系统管理、AI辅助脚本生成、故障排除工具、分屏“细胞”、局域网连接、本地主机搜索引擎及Hugging Face等平台登录集成等功能，将运行开源AI模型的操作难度大幅降低，实现一键运行本地应用与多任务高效处理，但该工具对高端GPU的需求仍让入门成本居高不下，成为其普及的主要挑战，用户可从pinokio.co获取该工具。
体验地址：
https://pinokio.co/

参考