Gemma 3 Technical Report

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量146

点赞数 4

CC 4.0 BY-SA版权

分类专栏： LLM Daily Technical Report 文章标签：语言模型人工智能

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/146391357

LLM Daily 同时被 2 个专栏收录

1689 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Technical Report

30 篇文章

订阅专栏

摘要

我们推出Gemma 3，这是Gemma系列轻量级开源模型的多模态扩展版本，参数规模从10亿到270亿不等。该版本引入了视觉理解能力，扩大了语言覆盖范围，并支持至少128K令牌的长文本上下文。我们还改进了模型架构，通过增加局部与全局注意力层的比例，缩短局部注意力的跨度，减少了在长文本推理时容易激增的KV缓存内存。Gemma 3模型采用蒸馏训练，在预训练和指令微调版本中均比Gemma 2性能更优。特别是，我们全新的训练后优化方法显著提升了模型在数学、对话、指令遵循和多语言处理方面的能力，使得Gemma3-4B-IT模型与Gemma2-27B-IT模型竞争力相当，Gemma3-27B-IT模型在基准测试中的表现可与Gemini-1.5-Pro媲美。我们将所有模型开源，供社区使用。

引言

我们推出Gemma开源语言模型的最新版本（Gemma团队，2024a），该版本与Gemini前沿模型系列（Gemini团队，2023）协同设计。这个新版本的模型规模与Gemma 2相当（Gemma团队，2024b），并新增了一个10亿参数的模型。这些模型旨在能够在标准的消费级硬件上运行，如手机、笔记本电脑和高端GPU。此版本为Gemma家族带来了多项新能力，即多模态、长上下文和多语言能力，同时保持或超越了先前版本的性能。

在多模态方面，大多数Gemma 3模型都与定制版的SigLIP视觉编码器（Zhai等人，2023）兼容。语言模型将图像视为由SigLIP编码的一系列软令牌。我们通过将视觉嵌入压缩为固定大小的256维向量，降低了图像处理的推理成本。该编码器以固定分辨率工作，我们借鉴LLaVA（Liu等人，2024）的方法，使用平移扫描（Pan and Sc