Gemma 3 Technical Report

摘要

我们推出Gemma 3,这是Gemma系列轻量级开源模型的多模态扩展版本,参数规模从10亿到270亿不等。该版本引入了视觉理解能力,扩大了语言覆盖范围,并支持至少128K令牌的长文本上下文。我们还改进了模型架构,通过增加局部与全局注意力层的比例,缩短局部注意力的跨度,减少了在长文本推理时容易激增的KV缓存内存。Gemma 3模型采用蒸馏训练,在预训练和指令微调版本中均比Gemma 2性能更优。特别是,我们全新的训练后优化方法显著提升了模型在数学、对话、指令遵循和多语言处理方面的能力,使得Gemma3-4B-IT模型与Gemma2-27B-IT模型竞争力相当,Gemma3-27B-IT模型在基准测试中的表现可与Gemini-1.5-Pro媲美。我们将所有模型开源,供社区使用。

引言

我们推出Gemma开源语言模型的最新版本(Gemma团队,2024a),该版本与Gemini前沿模型系列(Gemini团队,2023)协同设计。这个新版本的模型规模与Gemma 2相当(Gemma团队,2024b),并新增了一个10亿参数的模型。这些模型旨在能够在标准的消费级硬件上运行,如手机、笔记本电脑和高端GPU。此版本为Gemma家族带来了多项新能力,即多模态、长上下文和多语言能力,同时保持或超越了先前版本的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值