Gemini 正在改变什么？从 GPT-4 到 Gemini，看大模型的多模态进化-优快云博客

2022 年底，OpenAI 发布了引爆全球的 ChatGPT，一夜之间让「大语言模型」成为科技圈的热词。此后，国内外巨头纷纷下场，百度推出文心一言，阿里有通义千问，字节有豆包，腾讯有混元。AI 模型成为衡量技术实力的新标杆。

2023 年底，Google DeepMind 正式推出 Gemini 系列模型，标志着这家 AI 先驱终于放出杀手锏。而 2024 年发布的 Gemini 1.5 系列，尤其是 Gemini 1.5 Pro，更是让人眼前一亮，许多技术细节已开始对标甚至超越 GPT-4。

Gemini，不再只是 “聊天工具”，而是一种集理解、推理、执行于一体的「多模态智能体」。

相比 GPT-4，Gemini 系列最受关注的就是其原生的多模态能力。以下是 Gemini 的几个技术关键词：

Gemini 从一开始就是多模态训练的，图像、音频、视频、文本、代码 同时学习。这不同于 GPT-4 依赖外挂的 vision 模块，Gemini 是在模型结构和训练方式上就深度融合。

Gemini 1.5 Pro 支持 多达 100 万个 tokens 的上下文，远超 GPT-4 Turbo 的 128k。这意味着它可以：

Gemini 能自动判断是否调用工具（如搜索引擎、代码执行器、计算器等），更像一个具备“决策能力”的 Agent。和 GPT-4 加插件的方式不同，Gemini 更加自动化和原生。

DeepMind 原本就擅长 AlphaCode，Gemini 的代码能力也远强于 PaLM。它可以进行跨语言迁移、漏洞定位、单元测试生成等自动化开发任务。

Gemini 不只是一个 “更强的模型”，而是对开发、创作、学习流程的深层重构。举几个应用场景：

同时，Gemini 也支持 API 接入，目前 Google 已开放 Gemini API，支持与 Android Studio、Colab、Vertex AI 等平台集成。

模型	多模态能力	上下文长度	插件/工具支持	开源情况
GPT-4 Turbo	强（文字+图像）	128k	丰富（插件、代码解释器等）	未开源
Gemini 1.5 Pro	更强（图、音、视频原生）	100 万	原生集成 Toolformer	未开源
Claude 3 Opus	强（长文本优势）	200k	有限	未开源
文心4.0 / 通义千问 / 百川2	多数支持图文	128k 以下	支持插件	大多部分开源