一文读懂多模态大模型在垂直领域的系统进展

#ModelEngine·创作计划征文活动#

——基于《A systematic review of multi-modal large language models on domain-specific applications》的理论梳理与实践总结


1 引言:从“大语言模型”到“多模态智能体”

自 Transformer 架构提出以来,基于大规模参数和海量语料训练的 Large Language Models(LLMs)已经成为自然语言处理的事实标准。纯文本 LLM 在对话、翻译、代码生成等任务上表现惊人,但它们有一个根本性限制:只能“看懂文字”,无法直接感知真实世界中占主导地位的视觉、音频、结构化数据等多种模态。

多模态大语言模型(Multi-modal LLM, 简记 MLLM)正是为了解决这一问题而生:在语言模型外接入图像、音频、视频、图结构、传感器等模态编码器,用统一的语言空间去“对齐”与“推理”不同模态信息,从而支持“看图说话”“看片子写报告”“看视频规划动作”等复杂任务。

Li 等人在 2025 年发表的系统综述,对 2022 年 ChatGPT-3.5 发布之后涌现的22 篇面向具体领域的多模态 LLM 工作进行了系统梳理,涉及医疗、自动驾驶、几何推理、气候、音乐、电商、情感分析、人机交互和建筑等八大方向。这篇综述与以往偏重模型结构的技术 Survey 不同,更强调在具体行业场景中,多模态 LLM 是如何被“改造”和“落地”的

  • 使用了哪些多模态输入(文本、图像、音频、图、PDF 等);

  • 如何与基础 LLM 进行“耦合”:微调、提示学习、RAG 还是从零训练;

    </
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

智算菩萨

欢迎阅读最新融合AI编程内容

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值