【多模态】5分钟了解什么是多模态学习
多模态学习(Multimodal Learning)是一种利用来自不同感官****或交互方式****的数据进行学习的方法,这些数据模态可能包括文本 、图像 、音频 、视频****等。多模态学习 通过融合多种数据模态****来训练模型,从而提高模型的感知与理解能力 ,实现跨模态的信息交互与融合。

本文主要介绍多模态学习的三个关键:模态表示、多模态融合、跨模态对齐。

1. 什么是“模态表示”?
什么是模态表示(Modal Representation) ?模态表示是将不同感