一文读懂多模态大模型在垂直领域的系统进展

最新推荐文章于 2025-11-23 19:13:18 发布

智算菩萨

最新推荐文章于 2025-11-23 19:13:18 发布

阅读量44

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能前沿知识文章标签：人工智能语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/nmdbbzcl/article/details/155029672

人工智能前沿知识专栏收录该内容

23 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

#ModelEngine·创作计划征文活动#

——基于《A systematic review of multi-modal large language models on domain-specific applications》的理论梳理与实践总结

1 引言：从“大语言模型”到“多模态智能体”

自 Transformer 架构提出以来，基于大规模参数和海量语料训练的 Large Language Models（LLMs）已经成为自然语言处理的事实标准。纯文本 LLM 在对话、翻译、代码生成等任务上表现惊人，但它们有一个根本性限制：只能“看懂文字”，无法直接感知真实世界中占主导地位的视觉、音频、结构化数据等多种模态。

多模态大语言模型（Multi-modal LLM, 简记 MLLM）正是为了解决这一问题而生：在语言模型外接入图像、音频、视频、图结构、传感器等模态编码器，用统一的语言空间去“对齐”与“推理”不同模态信息，从而支持“看图说话”“看片子写报告”“看视频规划动作”等复杂任务。

Li 等人在 2025 年发表的系统综述，对 2022 年 ChatGPT-3.5 发布之后涌现的22 篇面向具体领域的多模态 LLM 工作进行了系统梳理，涉及医疗、自动驾驶、几何推理、气候、音乐、电商、情感分析、人机交互和建筑等八大方向。这篇综述与以往偏重模型结构的技术 Survey 不同，更强调在具体行业场景中，多模态 LLM 是如何被“改造”和“落地”的：

使用了哪些多模态输入（文本、图像、音频、图、PDF 等）；
如何与基础 LLM 进行“耦合”：微调、提示学习、RAG 还是从零训练；
</

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

智算菩萨 欢迎阅读最新融合AI编程内容

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。