谷歌反击!发布新一代Gemini,多模态能力仍是核心优势!

 Datawhale分享 

谷歌:Gemini 2.0,整理:Datawhale

就在凌晨,谷歌正式宣布 Gemini 2.0 对所有人开放!

本次发布带来了一系列更新和新模型,正式推出了 Gemini 2.0 Flash、 Gemini 2.0 Flash-Lite 以及新一代旗舰大模型 Gemini 2.0 Pro 实验版本,并且还在 Gemini App 中推出了其推理模型 Gemini 2.0 Flash Thinking。

a072a147db819df49612382a1b183d12.png

Gemini 2.0系列模型向所有人开放

最强 Pro 版本支持 2M 上下文,配备了谷歌搜索、代码执行能力,编码推理性能完全碾压 1.5 Pro。

Flash 版本被称为「高效主力模型」,支持 1M 上下文,低延迟构建应用。图像生成和文本转语音功能即将推出。

Flash-Lite 是最具性价比的模型,支持 1M 上下文和多模态输入,在相同速度和成本下性能超越 1.5 Flash。

在大模型 LMSYS 排行榜中,Gemini 2.0 Pro 与四大模型并列第一,Flash 版本位列第三, Flash-Lite 位列第 9。

a57b757390f7628d9cddd4f2a2a0b87d.png

多模态能力仍是核心优势

从这张时间表来看,Google 的核心优势仍然在多模态能力上。

edd71126098fa050432d6dce7e888df6.png

此前,Google DeepMind 的 CTO Koray Kavukcuoglu 在公司博客中写道:“这些模型在发布时将支持多模态输入(文本输出),并将在未来几个月内开放更多模态的全面使用。”

今天,谷歌在推理模型方面也发布了一些消息。

Google 首席执行官 Sundar Pichai 在社交网络 X 上宣布,Google Gemini 的 App 已经更新了 Google 自家的推理模型 Gemini 2.0 Flash Thinking。

68148fa61b011eab675b623effd72bd1.png

令人惊讶的是,谷歌的推理模型支持上传图片,下面是一个测试示例:

e6eddb09703f78feb3143cc2c468055d.png

于此同时,该模型可以连接到 Google 地图、YouTube 和 Google 搜索,从而实现一系列全新的 AI 驱动研究和交互。

相较而言,DeepSeek 和 OpenAI 目前专注在单一模态的大模型中,DeepSeek-R1 和 o3-mini 暂时还无法直接处理多模态输入(即无法解析图片、文件上传或附件)。虽然 DeepSeek-R1 在其网站和移动端支持图片上传,但它仅使用 光学字符识别(OCR) 来提取图片中的文本内容,而不是真正理解或分析图片的其他信息。

不过,谷歌能否将应用中的 AI 推理做得真正实用,还需要时间的检验。

谷歌 Gemini 2.0 三大模型:全方位加强

1. Gemini 2.0 Pro 实验版:最为出色

Gemini 2.0 Pro 实验版是谷歌迄今为止在编码和复杂指令任务中表现最好的模型。

在 Gemini 2.0 早期实验版本中(如 Gemini-Exp-1206),谷歌收到了来自开发者们的关于这些模型的优势和最佳用例的反馈,比如编码、复杂指令。

此次,Gemini 2.0 Pro 实验版本进一步强化了这些功能,具备了最强大的编码性能和处理复杂指令的能力,并且比谷歌此前发布的任何模型都具备更好的理解和推理世界知识的能力。

据官方博客介绍,该模型支持了谷歌最长的 200 万 tokens 上下文窗口,可以处理 2 小时视频、22 小时音频、6 万+ 行代码和 140 万 + 单词,从而能够全面分析和理解大量信息。同时,该模型还支持调用 Google Search 等工具和执行代码。

目前,Gemini 2.0 Pro 已经作为实验模型向 Google AI Studio 和 Vertex AI 的开发者以及桌面和移动设备上的 Gemini Advanced 用户提供。

40b59cddac2ae04b322cc168d272dbf1.png

2. Gemini 2.0 Flash:性能升级,全面可用

其次来看 Gemini 2.0 Flash,它是谷歌 Flash 系列模型的最新「成员」。

在 2024 年谷歌 I/O 大会上,Gemini 2.0 Flash(实验版本)首次亮相,此后便作为强大的主力模型而深受开发者的喜爱,并最适合大规模处理高容量、高频率任务,并能够通过 100 万 tokens 上下文窗口对海量信息进行多模态推理。

当前,Gemini 2.0 Flash 已经在谷歌的 AI 产品中向更多人全面开放使用。据介绍,该模型提供了全面的功能,包括原生工具使用。目前支持文本输出,并即将推出图像生成与文本转语音功能,未来几个月还将提供多模态 Live API。

目前,用户既可以在 Gemini App 中试用该模型,也可以在 Google AI Studio 和 Vertex AI 中使用 Gemini API。

0f129f13c817e8badb0fdb38e2497929.png

3. Gemini 2.0 Flash-Lite:性价比最高

最后是 Gemini 2.0 Flash-Lite,它是谷歌目前为止性价比最高的模型。该模型针对大规模文本输出用例进行了成本优化。

8b52dfe888eaee161bea152faa081bc2.png

谷歌表示,他们收到了关于 Gemini 1.5 Flash 在价格和速度方面的积极反馈,并希望在保持成本与速度优势的同时继续提升模型质量。因此,Gemini 2.0 Flash-Lite 在性能上更强,在大多数基准测试中均优于 1.5 Flash,并且速度和成本相当。

此外,与 2.0 Flash 一样,Gemini 2.0 Flash-Lite 支持 100 万 tokens 上下文窗口和多模态输入。比如,该模型可以为大约 4 万张不同的照片生成相关的单行字幕(或标题),在 Google AI Studio 付费套餐中仅花费不到 1 美元。

目前,Gemini 2.0 Flash-Lite 在 Google AI Studio 和 Vertex AI 中提供公开预览版。

下图为三个模型的一些参数汇总,可以看出图像和音频功能即将上线。

f50de8f3311e44df805539f78805bd28.png

参考资料:

https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/

https://venturebeat.com/ai/google-launches-gemini-2-0-pro-flash-lite-and-connects-reasoning-model-flash-thinking-to-youtube-maps-and-search/

https://virtualizationreview.com/Articles/2025/02/05/Google-Opens-Up-Gemini-2-0-Touting-Multimodal-Capabilities.aspx

https://developers.googleblog.com/en/gemini-2-family-expands/

61bde0e70545db073658d9f60fc0d2ef.png

智慧医药系统(smart-medicine)是一款采用SpringBoot架构构建的Java Web应用程序。其界面设计简洁而富有现代感,核心特色在于融合了当前前沿的生成式人工智能技术——具体接入了阿里云的通义千问大型语言模型,以此实现智能医疗咨询功能,从而增强系统的技术先进性与实用价值。该系统主要定位为医学知识查询与辅助学习平台,整体功能结构清晰、易于掌握,既适合编程初学者进行技术学习,也可作为院校课程设计或毕业项目的参考实现。 中医舌诊作为传统医学的重要诊断手段,依据舌象的颜色、形状及苔质等特征来辨析生理状况与病理变化。近年来,随着计算科学的进步,人工智能技术逐步渗透到这一传统领域,形成了跨学科的研究与应用方向。所述的中医舌诊系统正是这一方向的实践产物,它运用AI算法对舌象进行自动化分析。系统以SpringBoot为基础框架,该框架依托Java语言,致力于简化Spring应用程序的初始化与开发流程,其突出优势在于能高效构建独立、可投入生产的应用,尤其契合微服务架构与云原生环境,大幅降低了开发者在配置方面的负担。 系统中整合的通义千问大语言模型属于生成式人工智能范畴,通过海量数据训练获得模拟人类语言的能力,可在限定领域内生成连贯文本,为用户提供近似专业医生的交互式咨询。该技术的引入有助于提升诊断过程的自动化水平与结果一致性。 在设计与体验层面,本系统强调逻辑明晰与操作简便,旨在降低用户的学习门槛,尤其适合中医知识的入门教学。整体交互模式接近百科全书式查询,功能模块精炼聚焦,因而非常适用于教育场景,例如学术项目展示或毕业设计答辩。通过直观的实践界面,使用者能够更深入地理解中医舌诊的理论与方法。 此外,系统界面遵循简约大气的设计原则,兼顾视觉美感与交互流畅性,以提升用户的专注度与使用意愿。结合AI的数据处理能力,系统可实现对舌象特征的快速提取与实时分析,这不仅为传统诊断方法增添了客观量化维度,也拓展了中医知识传播的途径。借助网络平台,该系统能够突破地域限制,使更多用户便捷地获取专业化的中医健康参考,从而推动传统医学在现代社会的应用与普及。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
【掺铒光纤放大器(EDFA)模型】掺铒光纤放大器(EDFA)分析模型的模拟研究(Matlab代码实现)内容概要:本文介绍了掺铒光纤放大器(EDFA)分析模型的模拟研究,并提供了基于Matlab的代码实现方案。通过对EDFA的工作原理、增益特性、噪声系数等关键性能指标进行数学建模与仿真分析,帮助研究人员深入理解其在光通信系统中的作用机制。文档还列举了多个相关科研方向的技术支持内容,涵盖智能优化算法、路径规划、无人机应用、通信与信号处理、电力系统管理等多个领域,展示了Matlab在科学研究与工程仿真中的广泛应用能力。此外,文中附带网盘链接,便于获取完整的代码资源与开发工具包。; 适合人群:具备一定光学通信或电子信息背景,熟悉Matlab编程,从事科研或工程仿真的研究生、高校教师及技术研发人员。; 使用场景及目标:①用于光通信系统中EDFA性能的理论分析与仿真验证;②支持科研人员快速构建和测试EDFA模型,提升研究效率;③为教学实验、毕业设计及学术论文复现提供可靠的技术参考与代码基础。; 阅读建议:建议读者结合光通信基础知识,按照文档结构逐步运行并调试Matlab代码,重点关注模型参数设置与仿真结果分析,同时可利用提供的网盘资源拓展学习其他相关课题,深化对系统级仿真的理解。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值