多模态论文
文章平均质量分 96
精读多模态论文
DUTBenjamin
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
多模态论文精读1——LLaVA
人类通过多种感官(如视觉和语言)与世界互动,每种感官在表示和传达某些概念时具有独特的优势。人工智能的核心目标之一是开发一个能够有效遵循多模态视觉和语言指令的通用助手,以完成各种现实世界任务。现有的多模态模型通常针对特定任务进行训练,缺乏通用性,且多模态指令跟随数据的缺乏限制了模型的泛化能力。原创 2025-03-04 13:25:09 · 1597 阅读 · 0 评论 -
多模态论文精读2——MiniGPT
与传统的视觉语言模型相比,MiniGPT-4展示了许多先进的功能。作者认为GPT-4的多模态能力源于其使用了更先进的LLM,因此通过将视觉特征与先进的LLM(如Vicuna)对齐,可以实现类似的多模态能力。MiniGPT-4通过将视觉编码器与先进的LLM(Vicuna)对齐,探索视觉特征与语言模型的结合是否能够实现类似GPT-4的多模态能力。近年来,大型语言模型(LLMs)在语言理解和生成任务上取得了显著进展,尤其是GPT-4展示了强大的多模态能力,如从手写文本生成网站、识别图像中的幽默元素等。原创 2025-03-05 14:16:08 · 1070 阅读 · 0 评论
分享