大模型+多模态实现

最新推荐文章于 2025-06-24 23:01:36 发布

原创

最新推荐文章于 2025-06-24 23:01:36 发布 · 591 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

那么如何在预训练LLM的基础上引入跨模态的信息（包括图像、语音、视频模态），让其变得更强大、更通用呢？本节将介绍“大模型+多模态”的3种实现方法。

以LLM为核心，调用其他多模态组件

微软亚洲研究院（MSRA）联合浙江大学发布了HuggingGPT框架，该框架能够以LLM为核心，调用其他的多模态组件来合作完成复杂的AI任务，下面根据论文中提到的示例来一步一步地拆解 HuggingGPT框架的执行过程。

假如现在你要执行这样一个复杂的AI任务：生成一张一个小女孩正在读书的照片，要求她的姿势和示例照片中的小男孩的姿势相同，然后用你的声音来描述新生成的照片。HuggingGPT框架把执行这个复杂AI任务的过程分成了4个步骤。

（1）任务规划（Task Planning）。使用LLM了解用户的意图，并将用户的意图拆分为详细的执行步骤。如图5-10左上部分所示，将输入指令拆分为6个子步骤。

（2）模型选择（Model Selection）。根据步骤（1）中拆分的不同子步骤，从Hugging Face平台（一个包含多个模型的开源平台）中选取最合适的模型。

（3）任务执行（Task Execution）。调用步骤（2）中选定的各个模型依次执行，并将执行的结果返回给LLM。

（4）响应生成（Response Generation）。使用LLM对步骤（3）中各个模型返回的结果进行整合，得到最终的结果并进行输出。

基于多模态对齐数据训练多模态大模型

这种方法是直接利用多模态的对齐数据来训练多模态大模型，《多模态大模型：技术原理与实战》一书5

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。