好多读者私信说想了解一下多模态的内容,我这人最大的优点就是听劝...
好,那么好

, 今天开始陆续写点多模态内容,没想好是不是要写个专栏(因为我之前挖的坑太多...),然而还是开了,今天先写点基础做个seed
有想了解一下多模态扫盲的读者,可以自己先看看这篇论文
2311.13165.pdf (arxiv.org)
说是论文其实没什么干货,当多模态介绍看看是可以的(BTW现在感觉在aixV上水论文真的容易,我越来越想找人一起水一篇了,有兴趣的请联系我)
我先按照我自己的思路给大家过一下
MLLM(Multimodal Large Language Models)即多模态的大语言模型,顾名思义,这个还是以大语言模型为基础的
那怎么个多模法呢?从我这总结主要是2点:
1-Encoder,decoder的多模
2-多模融合
我们从一个简单的多模态CLIP讲起
CLIP也是OPENAI的模型,现在也被广泛的应用于各种多模态的业务场景里,本身是开源的,又是挺重要的分类器,你们使用的多模态模型或多或少都用了它的代码和概念

本文介绍了多模态大语言模型(MLLM)的基本原理,以CLIP模型为例,阐述了多模融合的方法,包括文本-图像的Encoder设计和特征融合过程。CLIP模型在抽象图片的分类任务上展现出强大的泛化能力,但也有其局限性,如OCR表现不佳,无法处理某些新概念。后续将探讨更多相关算法和技术。
最低0.47元/天 解锁文章
8884

被折叠的 条评论
为什么被折叠?



