AI苏妲己:
苹果开源了OpenELM,该AI模型包含了2.7亿、4.5亿、11亿和30亿四个参数版本,并且公开相关的代码、权重、数据集和训练过程。这一举措标志着苹果加入了谷歌、三星和微软等公司在PC和移动设备端推动生成式AI模型开发的行列。根据论文介绍,苹果这款模型不仅能在笔记本(配备英特尔i9-13900KF CPU、RTX 4090 GPU,24GB内存),还可以在M2 MacBook Pro(64GiB内存)运行。
性能方面,OpenELM 通过采用一系列先进的模型架构技术,在保持较小模型尺寸的同时,实现了出色的零样本任务和排行榜测试性能,展现了其作为高效大规模语言模型的潜力。论文显示,在标准零样本任务上,OpenELM 模型表现优于其他同类大型语言模型,如 Pythia-1.3B、Cerebras-GPT-1.3B 等。OpenELM-3B 在这些任务上达到了最高的平均得分56.11%。这为在资源受限的终端设备上部署强大的AI应用提供了可行性。
苹果公司通过6种技术组合,权衡计算效率、模型尺寸和性能:
1.在全连接层中不使用可学习的偏差参数:
传统的全连接层通常包括可学习的权重矩阵和偏差向量。但最新的研究发现,去掉偏差参数对模型性能影响很小,却能显著减少模型的参数量。这样可以在几乎不损失性能的情况下,减小模型尺寸。
2.使用RMSNorm应用预规范化,并使用旋转位置嵌入(ROPE)编码位置信息:
RMSNorm是一种normalization技术,可以稳定训练过程,提高模型性能。与之前常用的LayerNorm相比,RMSNorm不需要额外的参数。预规范化是指在Transformer的子层(自注意力和前馈网络)之前应用nor