一站式解读多模态——Transformer、Embedding、主流模型与通用任务实战（上）

于 2024-04-08 10:30:45 发布 · 1.6k 阅读

·

17

·

文章标签：

#transformer #embedding #百度 #飞桨星河社区 #飞桨

本文介绍了多模态学习的概念，涉及模态编码器、输入和输出投影器等组成部分，展示了多模态大模型在任务类型、数据集和训练流程中的应用，重点讲解了VIT在视觉预训练中的作用，以及Transformer模型在多模态领域的关键角色。

本文章由飞桨星河社区开发者高宏伟贡献。高宏伟，飞桨开发者技术专家（PPDE），飞桨领航团团长，长期在自媒体领域分享AI技术知识，博客粉丝9w+，飞桨星河社区ID为GoAI 。分享分为上下两期，本期分享从多模态概念与意义、任务类型及数据集、发展关系及时间线和基础知识等方面介绍多模态。

多模态概念与意义

多模态学习（Multimodal learning）是机器学习的一个重要分支。模态（Modality），就是数据的一种形式，例如图像、文本、语音等。通常意义的多模态学习，就是利用模型去同时处理多个模态数据，例如同时处理图文，图生文本、文本生图等。通过多模态大模型，可以更好地理解和处理复杂的多模态数据，提高人工智能的应用性能。

多模态任务类型及数据集

多模态大模型在许多领域都有广泛的应用，应用方向不限于自然语言处理、计算机视觉、音频处理等。具体任务又可以分为文本和图像的语义理解、图像描述、视觉定位、对话问答、视觉问答、视频的分类和识别、音频的情感分析和语音识别等。

基础任务数据集版本：

详细任务数据集版本：

多模态模型发展关系及时间线

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。