谷歌反击DeepSeek R1发布Gemini 2.0全家桶,几大云巨头官宣接入DeepSeek

图片

PART01 反击DeepSeek R1,谷歌发布Gemini 2.0全家桶

在 DeepSeek 的强烈攻势下,谷歌坐不住了。

今天,谷歌紧急上线 Gemini 2.0 全家桶。

谷歌全面发布 Gemini 2.0 Flash、 Gemini 2.0 Flash-Lite 以及新一代旗舰大模型 Gemini 2.0 Pro 实验版本,并且还在 Gemini App 中推出了其推理模型 Gemini 2.0 Flash Thinking。

图片

Gemini 2.0系列模型向所有人开放

  • Gemini 2.0 Pro 在代码和复杂提示方面表现最佳;

  • Gemini 2.0 Flash 拥有更高的速率限制、更强的性能和简化的定价;

  • Gemini 2.0 Flash-Lite 是谷歌目前最具性价比的模型;

  • Gemini 2.0 Flash Thinking Experimental 可在桌面端和移动端APP中体验。

下图为三个模型在通用、代码、推理、事实性、多语言、数学、长上下文、图像、音频和视频等多领域任务中的性能指标。

图片

在价格方面,谷歌将继续通过 Gemini 2.0 Flash 和 2.0 Flash-Lite 降低成本。

图片

在大模型LMSYS排行榜中,Gemini 2.0 Pro 与四大模型并列第一,Flsah 版本位列第三, Flash-Lite 位列第9。

图片

下图为三个模型的一些参数汇总,可以看出图像和音频功能即将上线。

图片

谷歌正式发布 Gemini 2 系列的同时,OpenAI 立即作出回应,宣布将其 AI 搜索功能面向所有免费用户开放。

图片

PART02 阿里、百度、腾讯、华为等多个平台官宣接入DeepSeek大模型

2月以来,已有多个平台宣布了 DeepSeek 大模型的合作。

2 月 4 日,华为计算宣布,潞晨科技携手昇腾,联合发布基于昇腾算力的 DeepSeek R1 系列推理 API,及云镜像服务。

图片

在本次发布中,潞晨以自研国产推理引擎为技术底座,成功实现了国产华为昇腾 910B 算力与 DeepSeek R1 系列模型的推理适配优化,性能表现与使用高端 GPU 持平,为开发者提供高效、灵活、稳定的 AI 推理服务,助力企业实现降本增效,加速智能业务基于国产软硬件体系快速部署落地。

图片

图片

  • 在线体验:https://video.luchentech.com/zh-CN

  • API 调用:https://cloud.luchentech.com/maas/modelMarket

近期,还有百度智能云、华为云、阿里云、腾讯云、云轴科技等多家平台也宣布接入DeepSeek模型。

多平台宣布上线DeepSeek大模型

2 月 4 日-火山引擎

2月4日,火山引擎发文,宣布将支持 V3/R1 等不同尺寸的 DeepSeek 开源模型,并且可以通过两种方式进行模型使用。

2 月 3 日-百度智能云

2月3日,百度智能云宣布,百度智能云千帆平台已正式上架 DeepSeek-R1 和 DeepSeek-V3 模型,推出了超低价格方案,还可享受限时免费服务,登录百度智能云千帆ModelBuilder即可快速体验。

2 月 3 日-阿里云

2月3日,阿里云也宣布,阿里云 PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1。

2 月 2 日-腾讯云

2月2日,腾讯云和秘塔 AI 先后宣布接入 DeepSeek-R1 模型。腾讯云表示,将 DeepSeek-R1 大模型一键部署至腾讯云「HAI」上,开发者仅需 3 分钟就能接入调用。

2 月 2 日-云轴科技

2月2日,云轴科技 ZStack 宣布 AI Infra 平台 ZStack 智塔全面支持企业私有化部署 DeepSeek-V3/R1/ Janus Pro三种模型,并可基于海光、昇腾、英伟达、英特尔等多种国内外CPU/GPU适配,将充分发挥DeepSeek开源模型和低成本高性能特点,助力企业级AI应用进一步落地。

2 月 1 日-华为云

2月1日,硅基流动和华为云团队,双方联合首发并上线基于华为云昇腾云服务的DeepSeek-R1/V3推理服务。

PART03 超越DeepSeek V3,Ai2 再开源 Tülu 3

2024年11月,艾伦人工智能研究所(Ai2)推出了 Tülu 3 8B 和 70B,在性能上超越了同等参数的 Llama 3.1 Instruct 版本,并在长达82页的论文中公布其训练细节,训练数据、代码、测试基准一应俱全。

图片

  • 论文链接:https://arxiv.org/pdf/2411.15124

1月30日,艾伦人工智能研究所(Ai2)推出了基于强化学习的新一代开源模型 Tülu3 405B,性能超 DeepSeek V3 和GPT-4o,完整发布训练数据方法。采用新后训练框架 RLVR,标志开放后训练研究新里程碑,为开发者提供高性能模型构建基础。

图片

在许多标准的基准测试中, Tülu3 405B 均实现了与 Deepseek V3 和 GPT-4o 相当或更优的性能,而且也超越了许多先前发布的后训练开源模型(同等参数规模),包括 Llama 3.1 405B Instruct 和 Nous Hermes 3 405B。

各项基准结果比较,最后一列是强化学习优化过的 Tülu 3 405B 的表现,在多项指标上超越了 Deepseek V3,特别是数学推理和安全性。

Tülu 3 的全部构建流程如下图所示,包括主要包括数据、训练和评估三部分。

图片

参考:
https://developers.googleblog.com/en/gemini-2-family-expands/
https://lmarena.ai/?leaderboard

欢迎各位关注我的微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值