
多模态大模型
文章平均质量分 85
Ming_Chens
简单纯粹
展开
-
SPHINX: THE JOINT MIXING OF WEIGHTS, TASKS,AND VISUAL EMBEDDINGS FOR MULTI-MODAL LARGELANGUAGE MODEL
然而,简单地对编码器的图像进行上采样会损害预先训练的位置先验,更重要的是,导致昂贵的计算开销(复杂性与自我注意机制中的图像大小呈二次增长)。通过提出的three-fold混合器以及更长的视觉标记序列,SPHINX 微调 LLM,例如 LLAMA-2,它是一个强大的 MLLM,具有优越的视觉指令跟随能力。我们的模型在各种视觉任务中表现出色,例如,以显着精度和解析它们的关系来检测不同的对象,或者准确解释复杂图中的内容。通过直接整合两个域的权重,混合LLM可以有效地结合不同的语义,具有良好的鲁棒性。原创 2024-08-06 20:04:42 · 880 阅读 · 0 评论 -
ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual Prompts
原图和绘制了视觉提示的图片作为GPT-4V的输入,同时也提供了数据集原本自带的ground-truth的标注还有系统提示词,模型会返回的triplets。文中用到的训练数据包括上面介绍的region-level的视觉提示数据,也包括图像级别的视觉提示数据,主要来自于LLaVA v1.5的数据。对于包含像素级别的mask标注的图像来说,视觉提示可以是 矩形框、椭圆、点、三角形、mask、mask边缘、箭头、涂鸦等。原创 2024-08-06 20:03:08 · 1136 阅读 · 0 评论 -
Align before Fuse: Vision and LanguageRepresentation Learning with Momentum Distillation (BLIP的前身工作)
也就是说,通过最大化图像和文本对之间的互信息,可以让模型学习到更有意义的表示和关联,从而提升任务的效果。LBEF的模型架构图,典型的双流多模态多模态模型,首先文本和图像的词嵌入和pixel嵌入,再分别经过text encoder和image encoder得到各自编码器的处理输出,之后先做ITC(即就是对比学习)前提是一点,先把两个不同模态的数据映射到同一个共享的空间,在。,通过跨模态注意将它们融合 (ALBEF) 之前的图像和文本表示 ALign,从而实现更ground的视觉和语言表示学习。原创 2024-08-06 20:01:53 · 1059 阅读 · 0 评论 -
Flamingo: a Visual Language Model for Few-Shot Learning
紧随其后的是密集的前馈层。为了保证在训练初始阶段模型和原先的LLM不至于偏差太远,作者采用了门控机制,具体来说就是将新层的输出乘上一个可学习的tanh(a),将LLM的原先输入与其加和,只需要在初始化时候将a=0即可确保初始化时候和原先LLM无太大偏差。作者对在训练过程中每一LM层的a变化进行了可视化,可发现两个规律,第一随着层数加深,门控值则更大,第二随着训练过程,门控值也逐渐变大,这个倒是符合我们的认识,浅层提取基础特征而深层则更加富有语义信息,因此在深层中的门控更大有利于引入更多的视觉语义信息。原创 2024-08-06 20:00:47 · 1426 阅读 · 0 评论 -
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs
在优化音频/视频投影仪以及解冻的LLM的同时,视频编码器和音频编码器保持冻结。训练目标与指令调整阶段对齐,确保我们的多模态训练方法中的连贯和有效的进展。通过有效利用同步视听数据,VideoLLaMA 2 对多模态内容进行了更深入的理解,从而提高了它在一系列多媒体分析任务上的性能。主要的训练目标是最小化文本响应的下一个令牌预测损失,增强模型理解和将音频数据映射到文本表示的能力。在这个阶段,音频编码器和音频投影仪被优化,LLM保持冻结,保持一致的训练目标,以最小化预训练阶段建立的文本标签交叉熵损失。原创 2024-08-06 19:58:45 · 1047 阅读 · 0 评论 -
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
研究人员通常将用户请求和LLMs的响应都以文本形式表达,但是,在许多应用场景下,仅限于文本的人机交互并不足够,真实世界的信息通常是多模态的。因此,作者的研究旨在填补加入音频的-视觉LLMs的空白,探讨构建支持视频输入的多模态LLMs的可能性,使用户能够围绕用户上传的视频与计算机进行交流。为了将视觉和音频编码器的输出与LLM的嵌入空间对齐,作者首先在海量视频/图像标题对上训练Video-LLaMA,然后使用质量更高但数量适中的视觉指导数据集模型。当前训练数据集的质量和规模限制了Video-LLaMA的表现。原创 2024-08-06 19:57:01 · 642 阅读 · 0 评论 -
ImageBind-LLM: Multi-modality Instruction Tuning
由于训练的时候只有图像-文本的指令微调数据,没有在包含其他模态的指令微调数据上进行微调,对应的推理和训练是存在gap的,为了更好地对其他模态的信息进行推理理解,本文提到了一种缓存增强的推理方式,即Cache-enhanced Inference。,首先是每一层transformer layer的线性层用rank 为16的LoRA做微调,同时线性层的归一化参数也会进行更新,也会和LLaMA-Adapter V2一样,加上可学习的偏置项。实现了高效的调优方法,包括图像编码器冻结和参数高效方法的使用。原创 2024-08-06 19:55:46 · 903 阅读 · 0 评论 -
LLaMA- Adapter V2: Parameter-Efficient Visual Instruction Model
研究人员建议集成字幕、OCR和搜索引擎等专家系统,以补充LLaMA-Adapter V2额外的视觉推理能力,而不是收集更多的图像文本数据或采用更强大的多模态模块。具体来说,只有视觉投影层和带门控的早期零初始化注意力针对图文字幕数据进行训练,而后期适应提示与零门控、未冻结范数、新添加的偏差和比例因子(或可选的低秩适应)被用于从指令跟随数据学习。值得注意的是,新增参数的数量仅占整个LLaMA的 0.04%(∼5M),表明 LLaMA-Adapter V2仍然是一种参数高效的方法。原创 2024-08-06 19:53:10 · 1182 阅读 · 0 评论 -
LLaMA- Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention
对于视觉模型,我们利用我们的方法微调预训练的 ViT进行下游图像分类,在各种图像分布上获得 VTAB-1k基准上的卓越性能。这样做的一个好处和 LoRA 类似,即对于不同的场景可以在基础的 llama 模型 (7B) 上插入不同的插件小模型(1.2 M),用于处理不同场景任务,而不用对每个场景任务都准备一个 7B 的大模型.由于我们的多模态变体提出了一种结合外部语义的通用范式,我们将进一步扩展 LLAMA-Adapter 作为一个统一的多模态框架,以广泛的指令(例如视频、音频和点云)为条件。原创 2024-08-06 19:51:26 · 1107 阅读 · 0 评论 -
LISA: Reasoning Segmentation via Large Language Model
我们提出了 LISA:大型语言指令分割助手,它继承了多模态大型语言模型 (LLM) 的语言生成能力,同时还具有生成分割掩码的能力。尽管感知系统近年来取得了显著的进展,但在执行视觉识别任务之前,它们仍然依赖于明确的人类指令或预定义的类别来识别目标对象。提出模型——LISA。它将分割能力注入到当前的多模态llm中,并在推理分割任务中表现出奇地有效。为了保持预先训练的多模态LLM (即我们实验中的LLAVA)的学习知识,我们。:在这项工作中,我们提出了一个新的分割任务——推理分割。骨干作为视觉骨干Fenc。原创 2024-08-06 19:48:44 · 795 阅读 · 0 评论 -
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
为了检查这种现象(GPT-4 高级多模态生成能力的主要原因是利用了更高级的大型语言模型 (LLM)),我们提出了 MiniGPT-4,它。我们的研究结果表明,MiniGPT-4 具有许多类似于 GPT-4 展示的功能,例如从手写草稿创建详细的图像描述生成和网站。在第二阶段,我们使用设计的会话模板对具有更小但高质量的图像-文本数据集的预训练模型进行微调,以增强模型的生成可靠性和可用性。对于视觉感知,我们使用与 BLIP-2 中使用的相同的视觉编码器,ViT 主干及其预训练的 Q-Former。原创 2024-08-06 19:47:34 · 752 阅读 · 0 评论 -
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models
这种方法反映在后续的高质量图像生成框架中,例如DALLE 3和SORA,它们利用VLM的生成和理解能力来获取用于生成任务的更高质量的文本条件。,用于后续的 LLM 处理。这种设计允许在不扩展视觉标记数量的情况下(Q还是从低分辨率的图像来的,只是与K,V进行计算的时候计算量增加了,但是保持放入LLM的视觉的token数量不变)提取 HR 细节,保持细节丰富度和计算可行性之间的平衡。同时,对于基于推理的生成,在这项工作中使用文本来桥接 VLM 和扩散模型,因为没有发现基于嵌入的方法有明显的增益。原创 2024-08-05 10:42:48 · 569 阅读 · 0 评论 -
TinyLLaVA: A Framework of Small-scale Large Multimodal Models
虽然不断扩大模型的容量能够提升模型对很多不同任务的解决能力,但训练庞大的模型需要很多的资源,如 Flamingo 为 80b,PaLM-E 为 562b,所以现在有很多 LLM 的模型也在降低模型参数量,降低到 7B 或 3B,但性能没有下降很多。当前的大语言模型的参数量太大了,作者想通过实验验证是否需要这么多的参数(于是做了巨多的消融实验),想尝试能不能让参数量小一点,还能达到相当的性能。证明了通过更好的训练组合方式和更高质量的数据,使用较小的 LMM 就能实现较大模型相当的性能。原创 2024-08-05 10:41:47 · 584 阅读 · 0 评论 -
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models
如果直接使用 ConvNeXt 来替换 ViT 的话也不太可行,因为 ConvNeXt 是在低分辨率数据上训练的,所以作者在训练模型的过程中会将ConvNeXt 的权重放开参与训练,而且比 ViT 取得了更好的效果。相反,保留大量的视觉标记避免了信息丢失,但牺牲了效率,挑战了llm的检索能力。,因此我们对其进行更新以bridge the gap(主流的方法一般都会冻结 vision encoder,但本文作者经过实验发现,更新 ConvNeXt 的参数能获得更好的效果,显著提升其在高分辨率任务中的性能)。原创 2024-08-05 10:40:54 · 795 阅读 · 0 评论 -
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding
将基于ConxNeXt-L的CLIP模型作为Image Encoder,将分辨率为 1024×1024 的图片作为输入,通过32倍下采样和pixel shuffle得到256个视觉token。和LLaVA一样,文中也是用了MLP作为Visual Projector,同时也是用了MLP作为Text Projector将LLM输出的[SEG]token对应的特征映射到视觉空间。本文提出了OMG-LLAVA,这是一个新颖而优雅的框架,结合了强大的像素级视觉理解与推理能力。表现出强大的基于视觉的对话和推理能力,原创 2024-08-05 10:40:07 · 716 阅读 · 0 评论 -
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models
与 SOTA 方法 LLaVA-1.5 相比,MoE-LLaVA-2.7B×4 展现了强大的图片理解能力,在 5 个 benchmark 上性能非常接近 LLaVA-1.5。MoE-LLAVA 仅在大约 3B 稀疏激活参数的情况下,在各种视觉理解数据集上表现出与 LLAAVA-1.5-7B 相当的性能,甚至在对象幻觉基准测试中甚至超过了 LLAVA-1.5-13B。当 top-k 个专家被激活时,其余的专家保持非活动状态,这种模型构成了具有无限可能的稀疏通路的 MoE-LLaVA。原创 2024-08-05 10:38:11 · 765 阅读 · 0 评论 -
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding
基于GPT-4的高质量指令微调数据集(GPT-4-based Instruction-following Data)(第二阶段使用,指令微调数据集),用OCR识别的结果以及图片的caption作为GPT-4的提示词,生成高质量指令微调的数据集。为了进一步清洗数据,文中。),同时基于CLIP-ViT-B/32模型输出的视觉特征,把50K图片聚为100个cluster,然后把14个cluster选了出来(包含丰富文本的图片,包括海报、封面、广告、教育资料以及商标等)。,每个对话都包含用于文本丰富图像的问答对。原创 2024-08-05 10:36:39 · 538 阅读 · 0 评论 -
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
如后面要描述的实验所示,该阶段的 LLAVA-Med 模型不仅能够作为生物医学视觉助手与用户进行交互,而且在在完善的生物医学 VQA 数据集上进行评估时也取得了良好的零样本任务迁移性能(具体来说,该模型首先学习使用图-标题对对齐生物医学词汇,然后学习使用 GPT-4 生成的指令跟踪数据掌握开放式对话语义,广泛模仿外行者如何逐渐获得生物医学知识。我们的实证研究验证了特定领域指令调整的有效性,并揭示了将多模态会话助手适应high-value verticals的最佳实践和有趣的发现。,然后使用一种新颖的。原创 2024-08-05 10:35:35 · 1131 阅读 · 0 评论 -
StableLLaVA:Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data
现有的方法依靠从基准数据集派生的注释来构建用于训练目的的图像对话数据集,类似于llm中的指令调优。与现有的策略相比,我们的方法独特地结合了图像和对话生成,有效地解决了基准数据集中发现的限制。我们使用 ChatGPT 和文本到图像生成模型来合成各种形式的视觉指令调整数据,例如多轮对话数据、多图像推理数据和异常检测数据。,利用 ChatGPT 和文本到图像生成模型的能力来生成具有不同图像内容的不同且可控的数据集。凭借我们的双生成方法的良好结果,前向思考数据收集技术有望在 LLM 研究的未来发挥重要作用。原创 2024-08-05 10:34:23 · 331 阅读 · 0 评论 -
LLaVA 1.5:Improved Baselines with Visual Instruction Tuning
Vision Encoder: 输入图像分辨率由224增大为336,使用CLIP ViT-L/336px,对图像细节理解能力更强更高质量的数据:真所谓 Data is All you need!扩展到高分辨率图像输入。我们表明,LLAVA 的架构通过简单地将图像划分为网格并保持其数据效率,在扩展到更高的分辨率方面是通用的;LLM模型:LLM语言模型升级为Vicuna v1.5 13B,语言模型参数量更大,效果更好。例如,对长格式语言推理的训练以及较短的视觉推理可以提高模型对多模态问题的写作能力。原创 2024-08-05 10:33:56 · 815 阅读 · 0 评论 -
LLaVA 1.0:Visual Instruction Tuning
从COCO test2017中随机抽取了30张图片,使用同样的数据生成流水线生成三类问题,共生成90个问题,加上图片的caption和bounding boxes,去问GPT-4和LLaVA。训练了 LLM 的部分,让其可以吸收 GPT-4 传入的强大的理解能力 因为 BLIP-2 只训练了 Q-former。特征对齐的预训练:在 CC-595K 上预训练,仅更新投影矩阵,使图像特征与预训练的 LLM 词嵌入对齐。使用了 GPT-4 生成的数据,用于做 finetune,带来了更强的理解能力。原创 2024-08-05 10:32:23 · 469 阅读 · 0 评论 -
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
进一步,冻结image encoder和LLM的参数,将Instruction文本分别加入到Q-Former输入端和LLM的输入端,训练Q-Former参数,具体的交互形式见上面的流程解读。这样的好处在于对于同一张图片,根据不同的instruction,我们可以得到基于instruction偏好更强的视觉特征,同时对应于两个不一样的图片,基于instruction内嵌的通用知识,可以使得模型有更好的知识迁移效果。另外,ALBEF可以看成是BLIP的前传,同样和三者的联系很深。作者主要提出了两点贡献。原创 2024-08-05 10:31:31 · 959 阅读 · 0 评论 -
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language M
具体来说,Text Transformer的文本嵌入是 [CLS] 标记的输出嵌入,而Query嵌入则包含多个输出嵌入(应该等于learned Queries的数量),因此首先计算每个Query输嵌入与文本嵌入之间的相似度,然后选择最高的一个作为图像-文本相似度。由于 Q-Former 已经过预训练,可以提取包含语言信息的视觉表示,因此它可以有效地充当信息瓶颈,将最有用的信息提供给 LLM,同时删除不相关的视觉信息,减轻了 LLM 学习视觉语言对齐的负担。,我们执行视觉语言表示学习,它。原创 2024-08-05 10:30:33 · 947 阅读 · 0 评论 -
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Gen
最后,我们将过滤后的图像-文本配对与人工标注的配对结合起来,形成一个新的数据集,用于预训练一个新的模型。另一个是过滤器,用于去除原始网络文本和合成文本中的噪声字幕。2. 将预训练MED微调为Captioner和Filter两个模块 3. 使用微调后的Captioner对训练数据生成一系列的字幕 4. 把这些生成的字幕和原始网络文本通过预训练的 Filter 过滤,删除噪声文本字幕 5. 最后将。我们对采用不同参数共享策略预训练的模型进行了评估,其中预训练是在包含网络文本的 1400 万张图像上进行的。原创 2024-08-05 10:29:03 · 778 阅读 · 0 评论 -
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling
当前的方法主要是将一个多模态的编码器 (比如视觉的 ViT) 和 LLM 相结合,使其能够处理各种模态的信息,并利用 LLM 强大的文本处理能力来产生有效的输出。AnyGPT 是一种 any-to-any 的多模态大语言模型,它可以处理多种模态数据,包括语音、文本、图像和音乐。评估结果表明,AnyGPT 作为通才多模态语言模型,在各种多模态理解和生成任务上实现了最先进的性能。同时,为了训练这种 any-to-any 的多模态大语言模型,作者构建了一个多模态数据集,是第一个大规模多模态指令数据集。原创 2024-08-05 10:27:29 · 1095 阅读 · 0 评论 -
DREAMLLM: SYNERGISTIC MULTIMODALCOMPREHENSION AND CREATION
其次,DREAMLLM 促进了原始、交错的文档的生成,对文本和图像内容进行建模,以及非结构化布局。一个特殊的** token预测在哪里生成图像**(其他论文也是这么用的,常见的做法,就是要预测在生成文本的过程中什么时候插入图像)。通俗解释就是,你让DREAMLLM帮你写一个故事,它不仅可以帮助完善故事,还可以同时生成与故事内容情节紧密相关的插图,一步到位。**实验:**DREAMLLM 是一种多功能的多模态通才,擅长零样本或上下文视觉语言理解和合成任务。多模态理解,文本条件图像合成,多模态联合创作与理解。原创 2024-08-05 10:23:31 · 565 阅读 · 0 评论