关于周刊
本期周刊,我们选择了11篇预训练相关的论文,涉及模型训练、图像编码、气候文本、对比学习、文本生成评估、小样本学习、决策推理、胚胎突变预测、蛋白质分析、数据集检测和模型可解释性的探索。此外,在研究动态方面,我们选择了1篇预训练资讯,将介绍大模型综述方面的一些最新内容。
(本期贡献者:申德周 翟珂 吴新刚)
文章来源:智源社区
论文推荐
标题:阿里|M6-10T: A SHARING-DELINKING PARADIGM FOR EFFICIENT MULTI-TRILLION PARAMETER PRETRAINING(M6-10T:用于高效多万亿参数预训练的共享去链接范式)
作者:Junyang Lin, An Yang, Hongxia Yang
简介:本文介绍一种训练大模型的CPU内存并维护高GPU的方法。深度学习算法、分布式训练、甚至大型模型的硬件设计也使得训练超大规模模型比较困难,比如 GPT-3和Switch Transformer拥有数千亿或甚至数万亿个参数。然而,在资源有限的情况下,极端规模需要大量计算和内存占用的模型训练在模型收敛方面的效率低得令人沮丧。在本文中,作者为需要高内存占用的大型模型提出了一种称为“伪到实”的简单训练策略。“伪到实”兼容大模型具有顺序层的架构。作者展示了预训练的实践前所未有的 10 万亿参数模型,比10天内仅在512个GPU上实现了最先进的技术。除了演示“伪到实”的应用,作者还提供了一种技术,Granular CPU offloading,管理用于训练大型模型的 CPU 内存并维护高 GPU 实用程序。在相当数量的资源上,快速训练超大规模模型可以带来更小的碳足迹,并为更环保的人工智能做出贡献。
论文地址:https://www.aminer.cn/pub/6163ab265244ab9dcbf95e67?f=cs
标题:META|Masked Autoencoders Are Scalable Vision Learners(屏蔽自编码器是可扩展的视觉学习器)
作者:Kaiming He, Xinlei Chen等
简介:本文介绍了掩码自编码器 (MAE) 用于计算机视觉的可扩展自监督学习。作者的M
预训练模型与应用:大模型、视觉学习、气候文本及更多

本周刊聚焦预训练模型的研究与应用,涵盖多万亿参数模型的高效训练、视觉学习的屏蔽自编码器、气候相关文本的预训练、对比学习、文本生成评估、小样本学习、决策推理、生物医学领域的突变预测等多个领域。此外,还探讨了大模型的最新进展和可解释性研究。这些工作展示了预训练模型在各种任务中的潜力和挑战。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



