
图文检索综述
文章平均质量分 92
只收集综述类文章
简简单单的貔貅
这个作者很懒,什么都没留下…
展开
-
图文检索综述(2):Deep Multimodal Data Fusion
多模态人工智能 (Multimodal AI) 通常涉及各种类型的数据(例如,图像、文本或从不同传感器收集的数据)、特征工程(例如,提取、组合/融合)和决策(例如,多数表决)。随着架构变得越来越复杂,多模态神经网络可以将特征提取、特征融合和决策过程集成到一个模型中。这些过程之间的界限越来越模糊。融合所基于的传统多模态数据融合分类法(例如,早期/晚期融合)已不再适合现代深度学习时代。原创 2024-10-16 19:59:01 · 1423 阅读 · 0 评论 -
图文检索综述(1):Vision + X: A Survey on Multimodal Learning in the Light of Data
我们以多感官的方式感知世界并与世界交流,不同的信息源由人类大脑的不同部分进行复杂的处理和解释,从而构成一个复杂但和谐统一的感知系统。为了赋予机器真正的智能,近年来,随着技术的进步,结合各种来源数据的多模态机器学习已成为一个越来越受欢迎的研究领域。在本文中,我们从新颖的视角对多模态机器学习进行了概述,不仅考虑了纯技术方面,还考虑了不同数据模态的内在性质。我们分析了每种数据格式的共性和独特性,主要包括视觉、音频、文本和动作,然后介绍了按数据模态组合分类的方法论进步,例如视觉+文本,略微侧重于视觉数据。原创 2024-10-12 14:43:18 · 1068 阅读 · 0 评论