CV开启大模型时代！谷歌发布史上最大ViT：220亿参数，视觉感知力直逼人类

原创

于 2023-04-13 14:34:42 发布 · 1.2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #深度学习 #机器学习

谷歌研究人员提出了一种训练大规模VisionTransformer模型的新方法，成功创建了包含220亿参数的ViT-22B。通过并行层、QK归一化和异步并行线性运算等优化，提升了训练效率和稳定性。实验表明，模型规模扩大能提升性能，增强公平性和鲁棒性，与人类视觉感知更一致。

ViT模型何时才能破万亿？

Transformer无疑是促进自然语言处理领域繁荣的最大功臣，也是GPT-4等大规模语言模型的基础架构。

不过相比语言模型动辄成千上万亿的参数量，计算机视觉领域吃到Transformer的红利就没那么多了，目前最大的视觉Transformer模型ViT-e的参数量还只有40亿参数。

最近谷歌发布了一篇论文，研究人员提出了一种能够高效且稳定训练大规模Vision Transformers(ViT)模型的方法，成功将ViT的参数量提升到220亿。

论文链接：https://arxiv.org/abs/2302.05442

为了实现模型的扩展，ViT-22B结合了其他语言模型（如PaLM模型）的思路，使用 QK 归一化改进了训练稳定性，提出了一种异步并行线性操作（asynchronous parallel linear operations）的新方法提升训练效率，并且能够在硬件效率更高的Cloud TPU上进行训练。

在对ViT-22B模型进行实验以评估下游任务性能时，ViT-22B也表现出类似大规模语言模型的能力，即随着模型规模的扩大，性能也在不断提升。

ViT-22B 还可以应用于PaLM-e中，与语言模型结合后的大模型可以显著提升机器人任务的技术水平。

研究人员还进一步观察到规模带来的其他优势，包括更好地平衡公平性和性能，在形状/纹理偏见方面与人类视觉感知的一致性，以及更好的稳健性。

模型架构

ViT-22B 是一个基于Transformer架构的模型，和原版ViT架构相比，研究人员主要做了三处修改以提升训练效率和训练稳定性。

并行层（parallel layers）

ViT-22B并行执行注意力块和MLP块，而在原版Transformer中为顺序执行。

PaLM模型的训练也采用了这种方法，可以将大模型的训练速度提高15%，并且性能没有下降。

query/ke

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。