歌 DeepMind 推出了 Gemini 2.0,这是一种人工智能模型,其处理速度优于其前身 Gemini 1.5 Pro,处理速度提高了一倍。该模型支持复杂的多模式任务,结合文本、图像和其他输入进行高级推理。 Gemini 2.0 基于 JAX/XLA 框架构建,进行了大规模优化,并包含用于探索复杂主题的 Deep Research 等新功能。它现在可供开发人员和值得信赖的测试人员使用,很快就会集成到 Gemini 和 Search 等 Google 产品中。
与前代产品相比,新模型在速度和准确性方面实现了飞跃。例如,Gemini 2.0 Flash 在关键基准测试中优于早期的 1.5 Pro 型号,同时保持两倍的处理速度。此外,它还通过支持诸如组合文本和视觉推理或执行跨越多种类型的输入和输出的复杂指令等任务来展示多模式集成。
来源:谷歌博客
谷歌工程副总裁 Bill Jia补充道:
Gemini 2.0 完全基于 JAX/XLA AI 框架/编译器构建和训练,我们将其开源并与世界共享。模型训练规模巨大。模型优化、微调、评估以及与最终用户产品的集成都推动了尖端技术的发展。
今天,我们将 2.0 交到开发人员和值得信赖的测试人员手中。我们正在迅速努力将其融入到我们的产品中,其中以 Gemini 和 Search 为主导。从今天开始,我们的 Gemini 2.0 Flash 实验模型将向所有 Gemini 用户开放。我们还推出了一项名为“深度研究”的新功能,它使用高级推理和长上下文功能充当研究助理,探索复杂的主题并代表您编写报告。今天在 Gemini Advanced 中可用。
Gemini 2.0 的功能使其非常适合一系列实际应用。其中亮点包括:
- Project Astra是一个原型,展示了人工智能助手的高级多模式理解,能够使用 Google 地图、搜索和 Lens。
- Project Mariner,演示了 Gemini 2.0 如何直接在 Web 浏览器中执行填写表单或分析内容等任务。
- Jules 是一名开发助理,旨在与 GitHub 工作流程集成,协助在人工监督下完成编码任务。
除了实用工具之外,Gemini 2.0 还在游戏中找到了用途,它可以实时分析游戏玩法,提供战略建议和建议。它的空间推理能力也在机器人技术中得到测试,其潜在应用包括物理世界中的导航和解决问题。
谷歌 DeepMind 强调安全是 Gemini 2.0 开发的核心原则。集成了防止未经授权的操作、保护用户隐私和解决恶意提示注入等风险的机制。此外,该模型的设计允许用户通过强大的隐私控制来管理敏感信息。
社区对 Gemini 2.0 的反馈非常热烈。例如,CX 领导者 Raj Nair说道:
谷歌在人工智能开发方面取得了令人印象深刻的进步! Gemini 2.0、Project Mariner和编码代理的能力都是AI如何从实验走向实际应用的标志。将如此先进的技术融入到日常任务中,从网页浏览到开发工作流程,必将重塑行业。