基于多模态的预训练大模型将实现图文音统一知识表示,成为
人工智能基础设施。
人工智能正在从文本、语音、视觉
等单模态智能,向着多种模态融合的通
用人工智能方向发展。多模态统一建模,
目的是增强模型的跨模态语义对齐能力,
打通各个模态之间的关系,使得模型逐
步标准化。目前,技术上的突出进展来
自于
CLIP
(匹配图像和文本)和
BEiT-3
(通用多模态基础模型)。基于多领域知
识,构建统一的、跨场景、多任务的多
模态基础模型已成为人工智能的重点发
<