作者:霜清、钟煌、鸿侠

通用统一的预训练大模型逐渐成为AI研究的一大趋势,本文将介绍达摩院提出的多模态模型OFA,是如何实现架构、模态、任务的三个统一。
近年来,基于大规模无监督数据的预训练逐渐成为深度学习研究的热潮,大规模预训练模型也凭借其强大的模型表现和迁移能力逐渐在AI领域扮演着基础模型的角色。近期,包括DeepMind的“通用AI Agent”Gato、通用图文模型Flamingo,及Google Pathway的一系列进展披露,均表明大规模多模态预训练已经逐步成为了未来AI的基础设施,AI模型也逐渐变的更加通用、统一。通用统一的预训练大模型也逐渐成为当前AI研究的一大趋势。
达摩院深耕多模态预训练,并率先探索通用统一模型。此前,达摩院陆续发布了多个版本的M6模型,从大规模稠密模型到超大规模的混合专家模型的探索,逐步从百亿参数升级到十万亿参数规模,在大模型、绿色/低碳AI、服务化、亮点应用等多方面都取得了一定的突破。今年,达摩院重点突破统一范式(模态、任务和架构)的通用多模态预训练框架M6-OFA,希望降低模型在预训练、适配下游模态与任务、以及推理过程中的难度,以便更加便捷地提供预训练、下游任务微调、模型部署、应用发布的大模型全流程服务。目前M6-OFA已被第39届国际机器学习大会(International Conference on Machine Learning (ICML 2022))录用,ICML是机器学习领域三大顶级会议之一。
多模态统一模型OFA的核心思想是将多模态任务表达为序列到序列生成的形式,结合任务特定的instruction在经典的transformer encoder-decoder架构中实现多任务预训练,从而实现以下三个统一。
-
架构统一:使用统一的transformer encoder decoder进行预训练和微调,不再需要针对不同任务设计特定的模型层,用户不再为模型设计和代码实现而烦恼。
-
模态统一:将NLP、CV和多模态任务统一到同一个框架和训练范式,即使你不是CV领域专家,也能轻松接入图像数据,玩转视觉、语言以及多模态AI模型。
-
任务统一:将任务统一表达成Seq2Seq的形式,预训练和微调均使用生成范式进行训练,模型可以同时学习多任务,让一个模型通过一次预训练即可获得多种能力,包括文本生成、图像生成、跨模态理解等。
目前,约10亿参数的OFA-huge模型在训练数据少一到两个数量级的情况下,不仅在图文描述、物体指代理解等多个任务中超越Deepmind Flamingo和Google CoCa,还同时具备高质量的图像生成能力。相关论文已被ICML 2022录用,对应代码、模型、交互式服务也已开源,论文及开源项目可至文末查看详情。
一、OFA任务效果
先来看看效果,OFA在一些任务效果表现上还是蛮神奇的,艺术创作和真实图像生成都不在话下。

而在开放领域的物体指代任务方面,在动漫场景同样能实现精准识别,杰尼龟、路飞,一个都不放过!

因为是基于instruction做多任务预训练,模型类似T0

达摩院提出多模态预训练模型OFA,实现架构、模态、任务的统一。OFA通过序列到序列的训练方式,统一处理文本、图像和坐标信息,展现出在多模态理解和生成任务上的优秀性能,且在有限的训练数据下超越了其他大型预训练模型。该模型已在多个多模态任务上取得SOTA,并在未见过的任务和领域数据上表现出零样本学习能力。
最低0.47元/天 解锁文章
1141





