苹果发布专为终端设备而设计的小模型OpenELM

AI苏妲己:

苹果开源了OpenELM,该AI模型包含了2.7亿、4.5亿、11亿和30亿四个参数版本,并且公开相关的代码、权重、数据集和训练过程。这一举措标志着苹果加入了谷歌、三星和微软等公司在PC和移动设备端推动生成式AI模型开发的行列。根据论文介绍,苹果这款模型不仅能在笔记本(配备英特尔i9-13900KF CPU、RTX 4090 GPU,24GB内存),还可以在M2 MacBook Pro(64GiB内存)运行。

性能方面,OpenELM 通过采用一系列先进的模型架构技术,在保持较小模型尺寸的同时,实现了出色的零样本任务和排行榜测试性能,展现了其作为高效大规模语言模型的潜力。论文显示,在标准零样本任务上,OpenELM 模型表现优于其他同类大型语言模型,如 Pythia-1.3B、Cerebras-GPT-1.3B 等。OpenELM-3B 在这些任务上达到了最高的平均得分56.11%。这为在资源受限的终端设备上部署强大的AI应用提供了可行性。

苹果公司通过6种技术组合,权衡计算效率、模型尺寸和性能:

1.在全连接层中不使用可学习的偏差参数:

传统的全连接层通常包括可学习的权重矩阵和偏差向量。但最新的研究发现,去掉偏差参数对模型性能影响很小,却能显著减少模型的参数量。这样可以在几乎不损失性能的情况下,减小模型尺寸。

2.使用RMSNorm应用预规范化,并使用旋转位置嵌入(ROPE)编码位置信息:

RMSNorm是一种normalization技术,可以稳定训练过程,提高模型性能。与之前常用的LayerNorm相比,RMSNorm不需要额外的参数。预规范化是指在Transformer的子层(自注意力和前馈网络)之前应用nor

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

灿烂李

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值