ViT模型何时才能破万亿?
Transformer无疑是促进自然语言处理领域繁荣的最大功臣,也是GPT-4等大规模语言模型的基础架构。
不过相比语言模型动辄成千上万亿的参数量,计算机视觉领域吃到Transformer的红利就没那么多了,目前最大的视觉Transformer模型ViT-e的参数量还只有40亿参数。
最近谷歌发布了一篇论文,研究人员提出了一种能够高效且稳定训练大规模Vision Transformers(ViT)模型的方法,成功将ViT的参数量提升到220亿。

论文链接:https://arxiv.org/abs/2302.05442
为了实现模型的扩展,ViT-22B结合了其他语言模型(如PaLM模型)的思路,使用 QK 归一化改进了训练稳定性,提出了一种异步并行线性操作(asynchronous parallel linear operations)的新方法提升训练效率,并且能够在硬件效率更高的Cloud TPU上进行训练。
在对ViT-22B模型进行实验以评估下游任务性能时,ViT-22B也表现出类似大规模语言模型的能力,即随着模型规模的扩大,性能也在不断提升。
ViT-22B 还可以应用于PaLM-e中,与语言模型结合后的大模型可以显著提升机器人任务的技术水平。
研究人员还进一步观察到规模带来的其他优势,包括更好地平衡公平性和性能,在形状/纹理偏见方面与人类视觉感知的一致性,以及更好的稳健性。
模型架构
ViT-22B 是一个基于Transformer架构的模型,和原版ViT架构相比,研究人员主要做了三处修改以提升训练效率和训练稳定性。
并行层(parallel layers)
ViT-22B并行执行注意力块和MLP块,而在原版Transformer中为顺序执行。

PaLM模型的训练也采用了这种方法,可以将大模型的训练速度提高15%,并且性能没有下降。
query/ke

谷歌研究人员提出了一种训练大规模VisionTransformer模型的新方法,成功创建了包含220亿参数的ViT-22B。通过并行层、QK归一化和异步并行线性运算等优化,提升了训练效率和稳定性。实验表明,模型规模扩大能提升性能,增强公平性和鲁棒性,与人类视觉感知更一致。
最低0.47元/天 解锁文章
1170

被折叠的 条评论
为什么被折叠?



