本文章由飞桨星河社区开发者高宏伟贡献。高宏伟,飞桨开发者技术专家(PPDE),飞桨领航团团长,长期在自媒体领域分享AI技术知识,博客粉丝9w+,飞桨星河社区ID为GoAI 。分享分为上下两期,本期分享从多模态概念与意义、任务类型及数据集、发展关系及时间线和基础知识等方面介绍多模态。
多模态概念与意义
多模态学习(Multimodal learning)是机器学习的一个重要分支。模态(Modality),就是数据的一种形式,例如图像、文本、语音等。通常意义的多模态学习,就是利用模型去同时处理多个模态数据,例如同时处理图文,图生文本、文本生图等。通过多模态大模型,可以更好地理解和处理复杂的多模态数据,提高人工智能的应用性能。
多模态任务类型及数据集
多模态大模型在许多领域都有广泛的应用,应用方向不限于自然语言处理、计算机视觉、音频处理等。具体任务又可以分为文本和图像的语义理解、图像描述、视觉定位、对话问答、视觉问答、视频的分类和识别、音频的情感分析和语音识别等。

基础任务数据集版本:

详细任务数据集版本:


本文介绍了多模态学习的概念,涉及模态编码器、输入和输出投影器等组成部分,展示了多模态大模型在任务类型、数据集和训练流程中的应用,重点讲解了VIT在视觉预训练中的作用,以及Transformer模型在多模态领域的关键角色。
最低0.47元/天 解锁文章
1832

被折叠的 条评论
为什么被折叠?



