谷歌反击！发布新一代Gemini，多模态能力仍是核心优势！

最新推荐文章于 2025-12-13 18:33:50 发布

转载最新推荐文章于 2025-12-13 18:33:50 发布 · 378 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247700260&idx=1&sn=018c0949ece70335de2ecd026fce4b50&chksm=e9177466bb79ef517f9a78a274ccf6d9efdbd04a0b6af7bf1c42454034f365a1ad769cb0ec40&scene=126&sessionid=0

Datawhale分享

谷歌：Gemini 2.0，整理：Datawhale

就在凌晨，谷歌正式宣布 Gemini 2.0 对所有人开放！

本次发布带来了一系列更新和新模型，正式推出了 Gemini 2.0 Flash、 Gemini 2.0 Flash-Lite 以及新一代旗舰大模型 Gemini 2.0 Pro 实验版本，并且还在 Gemini App 中推出了其推理模型 Gemini 2.0 Flash Thinking。

Gemini 2.0系列模型向所有人开放

最强 Pro 版本支持 2M 上下文，配备了谷歌搜索、代码执行能力，编码推理性能完全碾压 1.5 Pro。

Flash 版本被称为「高效主力模型」，支持 1M 上下文，低延迟构建应用。图像生成和文本转语音功能即将推出。

Flash-Lite 是最具性价比的模型，支持 1M 上下文和多模态输入，在相同速度和成本下性能超越 1.5 Flash。

在大模型 LMSYS 排行榜中，Gemini 2.0 Pro 与四大模型并列第一，Flash 版本位列第三， Flash-Lite 位列第 9。

多模态能力仍是核心优势

从这张时间表来看，Google 的核心优势仍然在多模态能力上。

此前，Google DeepMind 的 CTO Koray Kavukcuoglu 在公司博客中写道：“这些模型在发布时将支持多模态输入（文本输出），并将在未来几个月内开放更多模态的全面使用。”

今天，谷歌在推理模型方面也发布了一些消息。

Google 首席执行官 Sundar Pichai 在社交网络 X 上宣布，Google Gemini 的 App 已经更新了 Google 自家的推理模型 Gemini 2.0 Flash Thinking。

令人惊讶的是，谷歌的推理模型支持上传图片，下面是一个测试示例：

于此同时，该模型可以连接到 Google 地图、YouTube 和 Google 搜索，从而实现一系列全新的 AI 驱动研究和交互。

相较而言，DeepSeek 和 OpenAI 目前专注在单一模态的大模型中，DeepSeek-R1 和 o3-mini 暂时还无法直接处理多模态输入（即无法解析图片、文件上传或附件）。虽然 DeepSeek-R1 在其网站和移动端支持图片上传，但它仅使用光学字符识别（OCR）来提取图片中的文本内容，而不是真正理解或分析图片的其他信息。

不过，谷歌能否将应用中的 AI 推理做得真正实用，还需要时间的检验。

谷歌 Gemini 2.0 三大模型：全方位加强

1. Gemini 2.0 Pro 实验版：最为出色

Gemini 2.0 Pro 实验版是谷歌迄今为止在编码和复杂指令任务中表现最好的模型。

在 Gemini 2.0 早期实验版本中（如 Gemini-Exp-1206），谷歌收到了来自开发者们的关于这些模型的优势和最佳用例的反馈，比如编码、复杂指令。

此次，Gemini 2.0 Pro 实验版本进一步强化了这些功能，具备了最强大的编码性能和处理复杂指令的能力，并且比谷歌此前发布的任何模型都具备更好的理解和推理世界知识的能力。

据官方博客介绍，该模型支持了谷歌最长的 200 万 tokens 上下文窗口，可以处理 2 小时视频、22 小时音频、6 万+ 行代码和 140 万 + 单词，从而能够全面分析和理解大量信息。同时，该模型还支持调用 Google Search 等工具和执行代码。

目前，Gemini 2.0 Pro 已经作为实验模型向 Google AI Studio 和 Vertex AI 的开发者以及桌面和移动设备上的 Gemini Advanced 用户提供。