摘要
我们推出Gemma 3,这是Gemma系列轻量级开源模型的多模态扩展版本,参数规模从10亿到270亿不等。该版本引入了视觉理解能力,扩大了语言覆盖范围,并支持至少128K令牌的长文本上下文。我们还改进了模型架构,通过增加局部与全局注意力层的比例,缩短局部注意力的跨度,减少了在长文本推理时容易激增的KV缓存内存。Gemma 3模型采用蒸馏训练,在预训练和指令微调版本中均比Gemma 2性能更优。特别是,我们全新的训练后优化方法显著提升了模型在数学、对话、指令遵循和多语言处理方面的能力,使得Gemma3-4B-IT模型与Gemma2-27B-IT模型竞争力相当,Gemma3-27B-IT模型在基准测试中的表现可与Gemini-1.5-Pro媲美。我们将所有模型开源,供社区使用。
引言
我们推出Gemma开源语言模型的最新版本(Gemma团队,2024a),该版本与Gemini前沿模型系列(Gemini团队,2023)协同设计。这个新版本的模型规模与Gemma 2相当(Gemma团队,2024b),并新增了一个10亿参数的模型。这些模型旨在能够在标准的消费级硬件上运行,如手机、笔记本电脑和高端GPU。此版本为Gemma家族带来了多项新能力,即多模态、长上下文和多语言能力,同时保持或超越了先前版本的