摘要
我们推出Gemma 3,这是Gemma系列轻量级开源模型的多模态扩展版本,参数规模从10亿到270亿不等。该版本引入了视觉理解能力,扩大了语言覆盖范围,并支持至少128K令牌的长文本上下文。我们还改进了模型架构,通过增加局部与全局注意力层的比例,缩短局部注意力的跨度,减少了在长文本推理时容易激增的KV缓存内存。Gemma 3模型采用蒸馏训练,在预训练和指令微调版本中均比Gemma 2性能更优。特别是,我们全新的训练后优化方法显著提升了模型在数学、对话、指令遵循和多语言处理方面的能力,使得Gemma3-4B-IT模型与Gemma2-27B-IT模型竞争力相当,Gemma3-27B-IT模型在基准测试中的表现可与Gemini-1.5-Pro媲美。我们将所有模型开源,供社区使用。
引言
我们推出Gemma开源语言模型的最新版本(Gemma团队,2024a),该版本与Gemini前沿模型系列(Gemini团队,2023)协同设计。这个新版本的模型规模与Gemma 2相当(Gemma团队,2024b),并新增了一个10亿参数的模型。这些模型旨在能够在标准的消费级硬件上运行,如手机、笔记本电脑和高端GPU。此版本为Gemma家族带来了多项新能力,即多模态、长上下文和多语言能力,同时保持或超越了先前版本的性能。
在多模态方面,大多数Gemma 3模型都与定制版的SigLIP视觉编码器(Zhai等人,2023)兼容。语言模型将图像视为由SigLIP编码的一系列软令牌。我们通过将视觉嵌入压缩为固定大小的256维向量,降低了图像处理的推理成本。该编码器以固定分辨率工作,我们借鉴LLaVA(Liu等人,2024)的方法,使用平移扫描(Pan and Sc

订阅专栏 解锁全文
1262

被折叠的 条评论
为什么被折叠?



