一、概述
人类使用五种感官来体验和解释周围的世界。我们的五种感官从五种不同的来源和五种不同的方式捕获信息。模态是指某事发生、经历或捕捉的方式。
人工智能正在寻求模仿人类大脑,终究是跳不出这具躯壳的限制。
人脑由可以同时处理多种模式的神经网络组成。想象一下进行对话——您的大脑神经网络处理多模式输入(音频、视觉、文本、气味)。经过深层潜意识模态融合后,您可以推理对话者所说的话、他们的情绪状态以及您/他们的周围环境。这样可以更全面地看待情况并更深入地理解情况。
为了让人工智能能够与人类智能相匹配,它必须学会解释、推理和融合多模态信息。深度学习研究的最新和最