重磅发布OpenELM模型|苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相

苹果发布了OpenELM系列模型,提供不同参数规模版本,强调超小规模和逐层缩放设计,以降低运行成本并适应不同设备。模型基于公共数据集预训练,使用CoreNet库训练,旨在推动开源研究。

要说 ChatGPT 拉开了大模型竞赛的序幕,那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中,苹果似乎掀起的水花不是很大。不过,苹果最新放出的论文,传神社区看到其在开源领域做出的贡献。近日,苹果发布了 OpenELM,共四种变体(参数量分别为 270M、450M、1.1B 和 3B),这是一系列基于公开数据集进行预训练和微调的模型。OpenELM 的核心在于逐层缩放,即 OpenELM 中的每个 Transformer 层都有不同的配置(例如,头数和前馈网络维度),导致模型每层的参数数量不同,从而实现了更有效的跨层参数分配。

值得一提的是,苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的 checkpoint 和训练日志,以促进开源研究。

图片

OpenELM模型的技术细节和特点:

1:超小规模模型

OpenELM着眼于超小规模模型,提供270M、450M、1.1B和3B四个不同参数规模的版本,每个规模都包含预训练和指导版本。相对于微软Phi-3 Mini的38B和谷歌Gemma的20B,OpenELM的运行成本更低,可以在手机、笔记本电脑等设备上运行,无需依赖云服务器支持。

2:独特的架构

OpenELM采用纯解码器Transformer架构,这也是微软Phi-3 Mini和其他LLM的基础。它由多个相互连接的层组成,每个层都负责接收、处理和传递信息,最终输出响应。与传统LLM不同的是,OpenELM中每个Transformer层都有不同的配置,包括注意力头数和前馈网络维度等,使得每层参数数量不同。这种逐层缩放的设计能更有效地利用参数预算,提高模型精度。

苹果采用了

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值