谷歌 Gemini 1.5 Pro:超长上下文、多模态、超强性能
谷歌最新发布的 Gemini 1.5 Pro 语言模型拥有惊人的1000万个token的上下文长度,相当于750万个单词,可以轻松阅读7.5遍《哈利波特》全系列。这一长度远远超过了之前 Anthropic Claw 2.1 的20万个token,使其在“大海捞针”测试中表现出色。
Gemini 1.5 Pro 不仅拥有超长上下文,还拥有惊人的准确率:整体准确率高达99%,在512,000个token内甚至达到100%准确率。谷歌展示了该模型的能力,通过分析约10万行代码的3D JavaScript 库 3.js,帮助用户学习代码库。用户可以向 Gemini 1.5 Pro 提出任何关于代码的低级或高级问题。
更令人印象深刻的是,Gemini 1.5 Pro 是一个多模态模型,可以处理音频、图像甚至视频。它可以分析长达3小时的视频和22小时的音频,并且在“大海捞针”测试中依然表现出色,远远超过了其他多模态模型。Gemini 1.5 Pro 可以精确地输出事件的时间戳,甚至理解图画的场景,并提供事件的时间戳。
Gemini 1.5 Pro 训练时间比 Gemini 1 Ultra 短得多,性能却毫不逊色,并且在上下文长度更长的情况下,性能比 Gemini 1 Pro 有显著提升。其成功的关键在于使用了专家混合技术,并且可能还使用了最近发表的“大型世界模型”论文中提到的带注意力机制的技术。
总而言之,Gemini 1.5 Pro 拥有超长上下文、多模态、超强性能,是谷歌语言模型发展史上的一个里程碑。它在各种任务中展现出惊人的能力,将进一步推动人工智能技术的进步。