要说 ChatGPT 拉开了大模型竞赛的序幕,那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中,苹果似乎掀起的水花不是很大。不过,苹果最新放出的论文,传神社区看到其在开源领域做出的贡献。近日,苹果发布了 OpenELM,共四种变体(参数量分别为 270M、450M、1.1B 和 3B),这是一系列基于公开数据集进行预训练和微调的模型。OpenELM 的核心在于逐层缩放,即 OpenELM 中的每个 Transformer 层都有不同的配置(例如,头数和前馈网络维度),导致模型每层的参数数量不同,从而实现了更有效的跨层参数分配。
值得一提的是,苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的 checkpoint 和训练日志,以促进开源研究。

OpenELM模型的技术细节和特点:
1:超小规模模型
OpenELM着眼于超小规模模型,提供270M、450M、1.1B和3B四个不同参数规模的版本,每个规模都包含预训练和指导版本。相对于微软Phi-3 Mini的38B和谷歌Gemma的20B,OpenELM的运行成本更低,可以在手机、笔记本电脑等设备上运行,无需依赖云服务器支持。
2:独特的架构
OpenELM采用纯解码器Transformer架构,这也是微软Phi-3 Mini和其他LLM的基础。它由多个相互连接的层组成,每个层都负责接收、处理和传递信息,最终输出响应。与传统LLM不同的是,OpenELM中每个Transformer层都有不同的配置,包括注意力头数和前馈网络维度等,使得每层参数数量不同。这种逐层缩放的设计能更有效地利用参数预算,提高模型精度。
苹果采用了

苹果发布了OpenELM系列模型,提供不同参数规模版本,强调超小规模和逐层缩放设计,以降低运行成本并适应不同设备。模型基于公共数据集预训练,使用CoreNet库训练,旨在推动开源研究。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



