大模型榜单周报（2025/12/20）

转载于 2025-12-20 20:00:03 发布 · 1 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://yours.tools/zh/regexsucha.html

文章标签：

#it

1. 本周概览

本周大模型领域呈现显著变化，Google的Gemini 3 Flash模型系列表现突出，不仅在多个榜单新晋前列，还发布了新的高速低成本模型。OpenAI的GPT系列在编程和图像能力方面继续保持强势地位。xAI市场份额持续下降，而OpenAI份额则稳步上升。整体来看，新模型发布和性能优化仍是本周主要趋势。

2. 重点关注事件

OpenAI推出了其新一代图像模型 GPT Image 1.5，这一代模型具备更强的指令遵循，更精准的图像编辑，也能较好的保留细节，生成速度则来到上一代模型的4倍。目前屠榜了Artificial Analysis、LMArena 两大权威榜单。
Google本周发布了一系列新产品，包括高速、低成本模型 Gemini 3 Flash（该模型基于上个月发布的 Gemini 3，并被设为 Gemini 应用和搜索 AI 模式中的默认模型，目前在智能/成本上，成为了全球性价比最高的模型）和 T5Gemma 模型（首个多模态和长上下文的编码器-解码器模型，建立在 Gemma 3 的强大功能之上，使用了「适应（adaptation）」技术将已经完成预训练的仅解码器模型转换为编码器-解码器架构），进一步巩固了其在AI领域的领先地位。
阿里通义万相 2.6 上线，成为国内首个具备角色扮演功能的视频模型。Wan 2.6 在模型结构上集成了多项创新技术，可对输入参考视频进行多模态联合建模与学习，参考具有时序信息的主体情绪、姿态和多角度全面视觉特征，同时提取音色、语速等声学特征，在生成阶段作为参考条件控制，实现从画面到声音的全感官全维度一致性保持与迁移。
字节Seed本周也发布多项产品，推出了豆包视频生成模型Seedance 1.5 Pro（该模型采用了一套基于 MMDiT（Multi-Modal Diffusion Transformer）的原生联合生成框架，它建立了一个双分支的DiT架构，通过深度跨模态信息交互机制，让视觉流和听觉流在潜在空间（Latent Space）里实时通信）和通用 Agent 模型 Seed1.8（具备强大的多模态能力，支持图文输入，能在信息检索、代码生成、GUI 交互及复杂工作流等场景中高效精准地完成任务，满足日益多元的技术需求）。

3. 榜单变化

模型调用量排名变化

Gemini 2.5 Flash 排名上升了 1 名到第 2，仅次于 Grok Code Fast 1
GPT-OSS-120B 排名上升了 1 名到第 4
DeepSeek V3.2 重回榜单前 10，位列第 8 名

公司市占率变化

Google 保持第 1 位置
OpenAI 在发布 GPT-5.2 之后市占率超过 xAI 来到第 2 位；Anthropic、DeepSeek 紧跟 xAI 之后
xAI 份额持续下降了（17.3% → 14.8%），三周内累计下降 22.9%
OpenAI 份额上升了 2.9%（14.8% → 17.7%）

编程调用量排名变化

Grok Code Fast 1 保持第 1 位置
GPT-5.2 跃升至第 2 位
Claude Sonnet 4.5、Claude Opus 4.5 排名第 3、4
MiniMax M2 排名保持第 5
Devstral 2 2512 排名由第 9 上升了 2 名

大语言模型（Text Arena）排名变化

gemini-3-flash 新晋榜单第 3 名
gemini-3-flash 的 thinking-minimal 版本排名榜单第 7
gpt-5.2-high 和 gpt-5.2 分别排名 15、17位

编程能力榜单（WebDev Arena）排名变化

gemini-3-flash 新晋榜单第 5 名
gemini-3-flash 的 thinking-minimal 版本排名榜单第 12

编程能力榜单（LiveCodeBench GSO Leaderboard）排名变化

GPT-5.2 新晋榜单第 1 位
GPT-5.1 排名第 6 位

图像编辑能力榜单（Image Edit Arena）排名变化

chatgpt-image-latest (20251216)新晋榜单第 1 名
gpt-image-1.5 新晋榜单第 3 位，超过 gemini-3-pro-image-preview-2k (nano-banana-pro)
reve-v1.1 新晋榜单第 8 名

文生图榜单（Text-to-Image Arena）排名变化

gpt-image-1.5 超过 nano banana pro，新晋榜单首位
flux-2-max 排名仅次于二者，新晋榜单第 3 名

图像编辑能力榜单（Artificial Analysis Image Editing Leaderboard）排名变化

GPT-Image-1.5 超过 Nano Banana Pro，新晋榜单首位
FLUX-2-max 排名仅次于二者，新晋榜单第 3 名

文生图榜单（Artificial Analysis Text to Image Leaderboard）排名变化

GPT-Image-1.5 超过 Nano Banana Pro，新晋榜单首位
FLUX-2-max 排名仅次于二者，新晋榜单第 3 名

理科能力榜单（LLM Stats GPQA）排名变化

Gemini 3 Flash 新晋榜单第 4 名，得分 90.4%

前沿数学能力榜单（EPOCH AI FrontierMath）排名变化

GPT-5.2 的 xhigh 推理版本以 40.7% 的得分新晋榜单首位
Gemini 3 Flash 以 35.6% 的得分排名榜单第 5 位

多模态基准测试榜单（HLE）排名变化

GPT-5.2 新晋榜单第 3 名

GAIA 榜单排名变化

Microsoft AI Asia -Ads 发布的 HALO V1217-1 新晋榜首

4. OpenRouter排行榜

测评类型	第一名	第二名	第三名
模型调用量	Grok Code Fast 1	Gemini 2.5 Flash	Claude Sonnet 4.5
编程模型调用量	Grok Code Fast 1	GPT-5.2	Claude Sonnet 4.5
公司市占率	Google	OpenAI	xAI

各公司按不同能力领域排名汇总

测评类型	领先公司
大语言模型 Text Arena	Google、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智谱
编程能力 LMArena	Anthropic、OpenAI、Google
编程能力 LiveCodeBench	OpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite	(基于 Claude、Gemini、GPT、Qwen、DeepSeek 开发的开源系统排名靠前)
图像编辑和生成能力 Image Edit Arena	OpenAI、Google、字节、Reve
文生图能力 Text-to-Image Arena	OpenAI、Google、Black Forest Labs、腾讯、字节
图像编辑和生成能力 Image Editing Leaderboard	OpenAI、Google、Black Forest Labs、字节、Pruna AI
文生图能力 Text to Image Leaderboard	OpenAI、Google、Black Forest Labs、字节
GPQA 榜单	OpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMath 榜单	OpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last Exam 榜单	Google、OpenAI、Anthropic