
多模态大模型
文章平均质量分 91
经典和最新多模态大模型相关工作阅读,以及笔者实践中的debug记录
同屿Firmirin
内容更新已转移到知乎同名账号
展开
-
国内经典多模态大模型工作2——MiniCPM-V系列(MiniCPM-Llama3-V 2.5、MiniCPM-V-2.6解读)(持续更新)
MiniCPM-V系列是面壁智能推出的小参数量的开源多模态大模型,没有超过9B的版本。主打小而强。官方目前只放出了MiniCPM-Llama3-V 2.5的paper,2.0只有技术博客而且主要是效果展示。目前一共出了以下几代:MiniCPM-V、MiniCPM-V 2.0、MiniCPM-Llama3-V 2.5、MiniCPM-V 2.6。项目地址:https://github.com/OpenBMB/MiniCPM-V。原创 2024-10-12 11:02:42 · 1478 阅读 · 0 评论 -
国内经典多模态大模型工作1——Qwen-VL系列(Qwen-VL、Qwen2-VL解读)
Qwen-VL家族论文解读原创 2024-10-09 20:16:10 · 2449 阅读 · 0 评论 -
【MLLM阅读笔记-10】Groma精读: Localized Visual Tokenization for Grounding Multimodal Large Language Models
论文:《Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models》Github:纯手打,非机翻。原创 2024-09-02 16:29:33 · 807 阅读 · 0 评论 -
【MLLM阅读笔记-11】EAGLE精读,英伟达探索MLLM的视觉编码器混合:Exploring The Design Space for Multimodal LLMs with Mixture o
论文:《EAGLE: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders》Github:https://github.com/NVlabs/Eagle实验很多。对MLLM的视觉编码器的融合的一次对比。包括主要的不同任务的ViT的对比,不同融合策略的对比,不同模型组合的对比。验证了MLLM训练时把ViT放开很重要(之前很多工作都是冻结的)。针对多ViT组合的模型,搞了一个"预对齐",用一个冻结的LLM把不同原创 2024-09-02 16:25:01 · 1206 阅读 · 0 评论 -
【MLLM阅读笔记-9】KOSMOS-2精读,多模态大模型目标检测:Grounding Multimodal Large Language Models to the World
论文标题:KOSMOS-2: Grounding Multimodal Large Language Models to the WorldGitHub:https://aka.ms/GeneralAI需要部署教程的话在评论区提,作者会更的。强调grounding能力的多模态大模型。构建了大规模的定位图文对数据集GRIT。能用于各种定位相关的下游任务。并非通用MLLM,没有做MME等基准的实验,可以视为一个可对话的OVD检测模型,带caption功能。先强调了一下grounding能力的重要性和原创 2024-08-30 17:24:40 · 1472 阅读 · 0 评论 -
【MLLM阅读笔记-8】VisionLLM v2精读: An End-to-End Generalist Multimodal Large Language Model
文章:VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language TasksGitHub:https://github.com/OpenGVLab/VisionLLM本文的Introduction写得很好,用MLLM做各种下游任务,特别是较难任务的同学们可以看一下原文。当前的 MLLM 输出以文本形式,这极大地限制了它们表示结构化或视觉信息的能力。现在的一些原创 2024-08-19 18:50:46 · 1462 阅读 · 0 评论 -
目标检测多模态大模型实践:貌似是全网唯一Shikra的部署和测试教程,内含各种踩坑以及demo代码
Shikra实战原创 2024-08-22 16:21:13 · 1395 阅读 · 8 评论 -
【多模态大模型paper阅读笔记-7】Shikra精读,多模态大模型目标检测:Unleashing Multimodal LLM‘s Referential Dialogue Magic
论文:Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic揭示了mlms在理解和参与参考对话(人类沟通的一个组成部分)方面的关键差距。为了解决这个问题,我们引入了Shikra,这是一个统一的、简单的模型,旨在以自然语言理解和输出空间坐标。我们的方法不需要额外的词汇表、位置编码器或外部插件,从而保持了模型的简单性。原创 2024-08-19 10:32:57 · 933 阅读 · 0 评论 -
为什么多模态大模型中使用Q-Former的工作变少了?附Q-Former结构简介
面试中遇到的问题,自己在实践中注意到了却没有深究原因,没有回答好,特此记录和探讨这个问题。多模态大模型中需要一个输入投影模块,将视觉特征投射到LLM能理解的语言特征维度,这里就可以选择各种不同的模块。LLaVA最初用了简单的线性投射,然而作者提到这么做是为了做实验更快一点,使用复杂的模块可能会有更好的效果。后来就有用MLP的,代表工作有LLaVA后续系列、Intern-VL。还有用Q-Former的,这个是BLIP2提出的,代表工作还有Qwen-VL。原创 2024-07-26 11:46:51 · 2429 阅读 · 0 评论 -
【多模态大模型paper阅读笔记-6】Grounding多模态,LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models
模型输入图像和用户指令,输出带有边界框的图像描述,每个边界框对应一个短语。原创 2024-07-26 10:15:25 · 2966 阅读 · 0 评论 -
【多模态大模型paper阅读笔记-5】LLaVA:Visual Instruction Tuning,5千字精读,最适合入门多模态大模型的工作
LLaVA(视觉指令微调)论文精读原创 2024-07-24 18:13:27 · 1623 阅读 · 0 评论 -
【OCR多模态大模型paper阅读笔记--2】 LayoutLLM: Layout Instruction Tuning with Large Language Models for Document
目前使用扁平或layout文本来提示llm的方法,以及训练基于文档的mllm不能有效地捕获布局信息,限制了它们的0-shot文档理解能力。与现有的使用一般视觉预训练模型作为encoder的MLLM不同,本文将文档预训练模型作为encoder。分为文档级、区域级和段级,保证模型既能学习到文档的全局信息,又能学习到不同层次的详细信息。模型对问题有了更深入的理解,能够专注于相关区域,而不是在整个文档中搜索答案。现有的使用 MLLM 进行文档理解的工作也没有充分探索文档布局信息。文档级、区域级和段级。原创 2024-05-31 17:43:42 · 553 阅读 · 0 评论 -
【OCR多模态大模型paper阅读笔记--4】InternLM-XComposer2-4KHD精读,8B文档理解新SOTA!中文能力优秀的OCR大模型
为了解决高分辨率图像处理中的挑战,本文提出了一种新型的多模态大模型——InternLM-XComposer2-4KHD。该模型能够处理从336像素到4K高清(3840×1600)及以上分辨率的图像。通过这种创新方法,模型在高分辨率图像理解任务中的表现得到了显著提升。原创 2024-05-31 11:09:03 · 1259 阅读 · 2 评论 -
【多模态大模型阅读笔记--1】多模态大模型入门,MLLM综述:MM-LLMs: Recent Advances in MultiModal Large Language Models
- 归纳了现在多模态大模型的整体架构设计方向 - 提供了现有主流的 26 个多模态大模型 - 总结了提升多模态大模型性能的关键方法原创 2024-05-20 16:29:14 · 1391 阅读 · 1 评论 -
【OCR多模态大模型paper阅读笔记--3】mPLUG-DocOwl1.5: Unified Structure Learning for OCR-free Document Understandi
来自阿里的文档理解开源大模型,对多模态闭源大模型挑战的一步。原创 2024-05-15 18:07:45 · 1804 阅读 · 0 评论