Gemini 2.5:我们最智能的人工智能模型
在这篇文章中
- 介绍 Gemini 2.5
- Gemini 2.5 Pro
- 增强的推理能力
- 高级编程能力
- Gemini 的最佳特性
最后更新于 3 月 26 日
今天,我们推出 Gemini 2.5,这是我们最智能的人工智能模型。我们的首个 2.5 版本是 Gemini 2.5 Pro 实验版,它在一系列基准测试中遥遥领先,并在 LMArena 上以显著优势位居榜首。
Gemini 2.5 模型是“思考型”模型,能够在回应之前进行推理思考,从而提升性能并提高准确性。
在人工智能领域,“推理”能力不仅仅是指分类和预测,它还指分析信息、得出逻辑结论、结合上下文和细微差别以及做出明智决策的能力。
长期以来,我们一直在探索通过强化学习和思维链提示等技术让人工智能变得更智能、更具推理能力。在此基础上,我们最近推出了首个“思考型”模型 Gemini 2.0 Flash Thinking。
如今,凭借 Gemini 2.5,我们通过结合显著增强的基础模型和改进的后训练,实现了新的性能水平。展望未来,我们将直接在所有模型中构建这些思考能力,以便它们能够处理更复杂的问题,并支持更强大、更具情境感知能力的智能代理。
介绍 Gemini 2.5 Pro
Gemini 2.5 Pro 实验版是我们用于复杂任务的最先进的模型。它在 LMArena 排行榜上以显著优势位居榜首,该排行榜衡量的是人类偏好的指标,这表明该模型具备高质量的风格。Gemini 2.5 Pro 还在常见的编程、数学和科学基准测试中表现出色。
Gemini 2.5 Pro 现已在 Google AI Studio 和 Gemini 应用程序中面向 Gemini 高级用户推出,并将很快在 Vertex AI 上推出。我们还将在未来几周内推出定价方案,以便人们能够以更高的速率限制使用 Gemini 2.5 Pro,以实现大规模生产使用。
3 月 26 日更新:新增多轮指代消解(MRCR)评估。
增强的推理能力
在需要高级推理能力的基准测试中,Gemini 2.5 Pro 达到了最先进的水平。在 GPQA 和 AIME 2025 等数学和科学基准测试中,Gemini 2.5 Pro 领先,而无需使用增加成本的测试时技术(如多数投票)。
在由数百名专家设计的“人类最后考试”(Humanity’s Last Exam)数据集中,该数据集旨在捕捉人类知识和推理的前沿,Gemini 2.5 Pro 在不使用工具的情况下,达到了 18.8% 的最先进的水平。
高级编程能力
我们一直专注于编程性能,凭借 Gemini 2.5,我们在 2.0 的基础上取得了巨大飞跃,未来还将带来更多改进。Gemini 2.5 Pro 在创建视觉吸引力强的 Web 应用程序和智能代理代码应用程序方面表现出色,同时还支持代码转换和编辑。在 SWE-Bench Verified 上,这是智能代理代码评估的行业标准,Gemini 2.5 Pro 在自定义代理设置下得分达到了 63.8%。
以下是一个示例,展示 Gemini 2.5 Pro 如何利用其推理能力,仅通过一行提示生成可执行代码来创建一款视频游戏。
基于 Gemini 的最佳特性进行构建
Gemini 2.5 在 Gemini 模型的优势基础之上进行了构建,包括原生多模态和长上下文窗口。Gemini 2.5 Pro 今天推出时带有 100 万令牌的上下文窗口(200 万即将推出),其性能较上一代有所提升。它能够理解海量数据集,并处理来自不同信息源的复杂问题,包括文本、音频、图像、视频甚至整个代码库。
开发人员和企业现在可以在 Google AI Studio 中开始实验 Gemini 2.5 Pro,Gemini 高级用户可以在桌面和移动设备的模型下拉菜单中选择它。它将在未来几周内出现在 Vertex AI 上。
一如既往,我们欢迎反馈,以便我们能够以快速的步伐继续改进 Gemini 的出色新能力,目标是让我们的 AI 更加有用。