大模型榜单周报(2025/12/20)

1. 本周概览

本周大模型领域呈现显著变化,Google的Gemini 3 Flash模型系列表现突出,不仅在多个榜单新晋前列,还发布了新的高速低成本模型。OpenAI的GPT系列在编程和图像能力方面继续保持强势地位。xAI市场份额持续下降,而OpenAI份额则稳步上升。整体来看,新模型发布和性能优化仍是本周主要趋势。

2. 重点关注事件

  • OpenAI推出了其新一代图像模型 GPT Image 1.5,这一代模型具备更强的指令遵循,更精准的图像编辑,也能较好的保留细节,生成速度则来到上一代模型的4倍。目前屠榜了Artificial Analysis、LMArena 两大权威榜单。
  • Google本周发布了一系列新产品,包括高速、低成本模型 Gemini 3 Flash(该模型基于上个月发布的 Gemini 3,并被设为 Gemini 应用和搜索 AI 模式中的默认模型,目前在智能/成本上,成为了全球性价比最高的模型)和 T5Gemma 模型(首个多模态和长上下文的编码器-解码器模型,建立在 Gemma 3 的强大功能之上,使用了「适应(adaptation)」技术将已经完成预训练的仅解码器模型转换为编码器-解码器架构),进一步巩固了其在AI领域的领先地位。
  • 阿里通义万相 2.6 上线,成为国内首个具备角色扮演功能的视频模型。Wan 2.6 在模型结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习,参考具有时序信息的主体情绪、姿态和多角度全面视觉特征,同时提取音色、语速等声学特征,在生成阶段作为参考条件控制,实现从画面到声音的全感官全维度一致性保持与迁移。
  • 字节Seed本周也发布多项产品,推出了豆包视频生成模型Seedance 1.5 Pro(该模型采用了一套基于 MMDiT(Multi-Modal Diffusion Transformer) 的原生联合生成框架,它建立了一个双分支的DiT架构,通过深度跨模态信息交互机制,让视觉流和听觉流在潜在空间(Latent Space)里实时通信)和通用 Agent 模型 Seed1.8(具备强大的多模态能力,支持图文输入,能在信息检索、代码生成、GUI 交互及复杂工作流等场景中高效精准地完成任务,满足日益多元的技术需求)。

3. 榜单变化

模型调用量排名变化
  • Gemini 2.5 Flash 排名上升了 1 名到第 2,仅次于 Grok Code Fast 1
  • GPT-OSS-120B 排名上升了 1 名到第 4
  • DeepSeek V3.2 重回榜单前 10,位列第 8 名
公司市占率变化
  • Google 保持第 1 位置
  • OpenAI 在发布 GPT-5.2 之后市占率超过 xAI 来到第 2 位;Anthropic、DeepSeek 紧跟 xAI 之后
  • xAI 份额持续下降了(17.3% → 14.8%),三周内累计下降 22.9%
  • OpenAI 份额上升了 2.9%(14.8% → 17.7%)
编程调用量排名变化
  • Grok Code Fast 1 保持第 1 位置
  • GPT-5.2 跃升至第 2 位
  • Claude Sonnet 4.5、Claude Opus 4.5 排名第 3、4
  • MiniMax M2 排名保持第 5
  • Devstral 2 2512 排名由第 9 上升了 2 名
大语言模型(Text Arena)排名变化
  • gemini-3-flash 新晋榜单第 3 名
  • gemini-3-flash 的 thinking-minimal 版本排名榜单第 7
  • gpt-5.2-high 和 gpt-5.2 分别排名 15、17位
编程能力榜单(WebDev Arena)排名变化
  • gemini-3-flash 新晋榜单第 5 名
  • gemini-3-flash 的 thinking-minimal 版本排名榜单第 12
编程能力榜单(LiveCodeBench GSO Leaderboard)排名变化
  • GPT-5.2 新晋榜单第 1 位
  • GPT-5.1 排名第 6 位
图像编辑能力榜单(Image Edit Arena)排名变化
  • chatgpt-image-latest (20251216)新晋榜单第 1 名
  • gpt-image-1.5 新晋榜单第 3 位,超过 gemini-3-pro-image-preview-2k (nano-banana-pro)
  • reve-v1.1 新晋榜单第 8 名
文生图榜单(Text-to-Image Arena)排名变化
  • gpt-image-1.5 超过 nano banana pro,新晋榜单首位
  • flux-2-max 排名仅次于二者,新晋榜单第 3 名
图像编辑能力榜单 (Artificial Analysis Image Editing Leaderboard)排名变化
  • GPT-Image-1.5 超过 Nano Banana Pro,新晋榜单首位
  • FLUX-2-max 排名仅次于二者,新晋榜单第 3 名
文生图榜单(Artificial Analysis Text to Image Leaderboard)排名变化
  • GPT-Image-1.5 超过 Nano Banana Pro,新晋榜单首位
  • FLUX-2-max 排名仅次于二者,新晋榜单第 3 名
理科能力榜单(LLM Stats GPQA)排名变化
  • Gemini 3 Flash 新晋榜单第 4 名,得分 90.4%
前沿数学能力榜单(EPOCH AI FrontierMath)排名变化
  • GPT-5.2 的 xhigh 推理版本以 40.7% 的得分新晋榜单首位
  • Gemini 3 Flash 以 35.6% 的得分排名榜单第 5 位
多模态基准测试榜单(HLE)排名变化
  • GPT-5.2 新晋榜单第 3 名
GAIA 榜单排名变化
  • Microsoft AI Asia -Ads 发布的 HALO V1217-1 新晋榜首

4. OpenRouter排行榜

测评类型第一名第二名第三名
模型调用量Grok Code Fast 1Gemini 2.5 FlashClaude Sonnet 4.5
编程模型调用量Grok Code Fast 1GPT-5.2Claude Sonnet 4.5
公司市占率GoogleOpenAIxAI

各公司按不同能力领域排名汇总

测评类型领先公司
大语言模型 Text ArenaGoogle、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智谱
编程能力 LMArenaAnthropic、OpenAI、Google
编程能力 LiveCodeBenchOpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite(基于 Claude、Gemini、GPT、Qwen、DeepSeek 开发的开源系统排名靠前)
图像编辑和生成能力 Image Edit ArenaOpenAI、Google、字节、Reve
文生图能力 Text-to-Image ArenaOpenAI、Google、Black Forest Labs、腾讯、字节
图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、Black Forest Labs、字节、Pruna AI
文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、字节
GPQA 榜单OpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMath 榜单OpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last Exam 榜单Google、OpenAI、Anthropic

📌 关注我,第一时间掌握更多AI前沿资讯!

当前,全球经济格局深刻调整,数字化浪潮席卷各行各业,智能物流作为现代物流发展的必然趋势和关键支撑,正迎来前所未有的发展机遇。以人工智能、物联网、大数据、云计算、区块链等前沿信息技术的快速迭代与深度融合为驱动,智能物流不再是传统物流的简单技术叠加,而是正在经历一场从自动化向智能化、从被动响应向主动预测、从信息孤岛向全面互联的深刻变革。展望2025年,智能物流系统将不再局限于提升效率、降低成本的基本目标,而是要构建一个感知更全面、决策更精准、执行更高效、协同更顺畅的智慧运行体系。这要求我们必须超越传统思维定式,以系统化、前瞻性的视角,全面规划和实施智能物流系统的建设。本实施方案正是基于对行业发展趋势的深刻洞察和对未来需求的精准把握而制定。我们的核心目标在于:通过构建一个集成了先进感知技术、大数据分析引擎、智能决策算法和高效协同平台的综合智能物流系统,实现物流全链路的可视化、透明化和智能化管理。这不仅是技术层面的革新,更是管理模式和服务能力的全面提升。本方案旨在明确系统建设的战略方向、关键任务、技术路径和实施步骤,确保通过系统化部署,有效应对日益复杂的供应链环境,提升整体物流韧性,优化资源配置效率,降低运营成本,并最终为客户创造更卓越的价值体验。我们致力于通过本方案的实施,引领智能物流迈向更高水平,为构建现代化经济体系、推动高质量发展提供强有力的物流保障。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值