目前最火的Gemini有哪些创新

Gemini作为最新的模型,其在多模态处理方面展现出领先优势,尤其是在video识别上超越了GPT4v。该模型采用了非casual-decoder的Encoder-decoder架构,引入video能力,规模约为GPT-4的2.5倍。此外,文章探讨了Gemini所使用的硬件,特别是Google的TPU和OCS全光网络系统在深度学习通信延迟和带宽管理上的创新。

跟我读,[dʒemɪnaɪ], 不是铃木汽车那个jimny

      一早上被刷屏了,铺天盖地的Gemini逆袭,从现在公布出来的demo和测试结果确实看着是很领先的模型,对video的识别GPT4v目前是做不到的,因为它的多模态encoder和decoder现在不支持video的

     与此同时也伴随着争议让一些问题发酵,比如为什么在MMLU里面few_shot COT@32的时候 Gemini Ultra beat GPT4,而few_shot COT@5的时候 不如GPT4

Image

      对于我个人来说,我其实最关注的是Gemini的技术实现是否有所突破,相对于现在的casual-decoder的Transformer来讲

      由于东西比较新,也没有Paper出来(由于GPT-4就没公布,估计后面大家想看到一些商业化的产品的核心内容也很难了),我就自己总结了几个比较值得说的点:

1- 真正的多模态:把video能力加入到编解码里面,目前没看到解码,如果不能生成视频的话,那严格来说还是差了一块拼图,但是不管怎么说,这个是个不小的提升,相当于把人类世界的几种表达方式凑全了,目前Claude2只能text,GPT-4V和GPT-4严格来说是两个模型,还不支持video

2- Encoder-decoder模式:不知道是急于给T5和众兄弟证明,还是确实顶级大佬们发现了Encoder-decoder模式的某种没表现出来的能力,从一些小道消息,我听说Gemini并没有采用业界现在最火,性能最优的casual-decoder的架构,而是采用了最让人诟病的和T5一样的非满秩encoder-decoder全来的传统Transform

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值