——基于《A systematic review of multi-modal large language models on domain-specific applications》的理论梳理与实践总结
1 引言:从“大语言模型”到“多模态智能体”
自 Transformer 架构提出以来,基于大规模参数和海量语料训练的 Large Language Models(LLMs)已经成为自然语言处理的事实标准。纯文本 LLM 在对话、翻译、代码生成等任务上表现惊人,但它们有一个根本性限制:只能“看懂文字”,无法直接感知真实世界中占主导地位的视觉、音频、结构化数据等多种模态。
多模态大语言模型(Multi-modal LLM, 简记 MLLM)正是为了解决这一问题而生:在语言模型外接入图像、音频、视频、图结构、传感器等模态编码器,用统一的语言空间去“对齐”与“推理”不同模态信息,从而支持“看图说话”“看片子写报告”“看视频规划动作”等复杂任务。
Li 等人在 2025 年发表的系统综述,对 2022 年 ChatGPT-3.5 发布之后涌现的22 篇面向具体领域的多模态 LLM 工作进行了系统梳理,涉及医疗、自动驾驶、几何推理、气候、音乐、电商、情感分析、人机交互和建筑等八大方向。这篇综述与以往偏重模型结构的技术 Survey 不同,更强调在具体行业场景中,多模态 LLM 是如何被“改造”和“落地”的:
-
使用了哪些多模态输入(文本、图像、音频、图、PDF 等);
-
如何与基础 LLM 进行“耦合”:微调、提示学习、RAG 还是从零训练;
</
订阅专栏 解锁全文
377

被折叠的 条评论
为什么被折叠?



