Spring AI-13.多模态 API(Multimodality AP)
“自然关联的事物都应结合起来教授”——约翰·阿莫斯·夸美纽斯,《世界图解》,1658 年
人类通过多种数据输入模式同时处理知识。我们的学习方式和经验都是多模态的,不仅包含视觉、听觉和文本。与之相对,机器学习过去常常专注于处理单一模态的专用模型。例如,我们开发了用于文本转语音或语音转文本任务的音频模型,以及用于目标检测和分类任务的计算机视觉模型。
然而,一股新的多模态大型语言模型浪潮开始兴起。例如,OpenAI 的 GPT-4o、谷歌的 Vertex AI Gemini 1.5、Anthropic 的 Claude3,以及开源模型 Llama3.2、LLaVA 和 BakLLaVA 等,都能够接受包括文本、图像、音频和视频在内的多种输入,并通过整合这些输入生成文本响应。
多模态大型语言模型(LLM)的功能使模型能够结合图像、音频或视频等其他模态来处理和生成文本。
Spring AI 多模态支持
多模态是指模型同时理解和处理来自文本、图像、音频和其他数据格式等各种来源信息的能力。Spring AI 的消息 API 提供了支持多模态 LLM 所需的所有抽象。