
多模态模型
文章平均质量分 95
pureblacker
这个作者很懒,什么都没留下…
展开
-
【区域级描述生成DLC】Describe Anything: Detailed Localized Image and Video Captioning
目标:给定一张图像或一段视频,以及用户指定的若干“感兴趣区域”(通过二值掩码 M 或等价的点击/框/涂抹等方式),生成仅聚焦该区域的详细文本描述。形式化地,设有 N 帧输入• 图像帧:(;I• 区域掩码:(;M希望学习到一个 CaptioningModel,使其输出一段文字 (T) ,满足[ T;{(i)},M其中,N = 1 时即图像区域描述,N > 1 时为视频区域描述。论文中侧重以二值掩码 M 为输入;若用户提供点、框、涂抹等,也可通过 SAM/SAM 2 等模型先转为掩码。原创 2025-04-28 16:50:48 · 858 阅读 · 0 评论 -
多模态大模型课程-UCAS-WJQ
利用语言学、语音学、数字信号处理、计算机科学等领域的知识,对人发音生理过程进行模拟和抽象总结,对文本的发音进行多种角度的分析,经过一系列的处理,最终得到具有特定语音特征的人类可听懂的音频信号。Video-LLaVA 将图片和视频特征映射到统一的特征空间中,以便语言模型能够从统一的视觉表示中学习模态之间的交互,在图片和视频上的13 个基准上达到SOTA。设计算法模型对图像的生成过程进行模拟和抽象总结,经过一系列的处理,最终得到具有特定特征的图像。利用深度学习技术来验证数字内容(如图像、视频、音频)的真实性。翻译 2025-01-09 22:02:32 · 105 阅读 · 0 评论 -
Llava论文阅读:Visual Instruction Tuning
以前的研究显示,通过使用机器生成的指令遵循数据来训练LLMs,可以提升模型在新的任务上的零样本学习能力。但在多模态领域,这个想法还没有被充分探索。研究人员首次尝试使用仅处理语言的GPT-4模型来生成多模态的语言图像指令遵循数据。同时引入了一个名为LLaVA的新模型在生成的数据上进行指令微调。这个模型是一个端到端训练的大型多模态模型,它将视觉编码器(用于理解图像)和大型语言模型(LLM)连接起来,用于 通用的视觉和语言理解。为了促进未来在视觉指令遵循方面的研究,研究人员构建了两个评估基准。原创 2025-01-07 10:00:46 · 1923 阅读 · 1 评论 -
CLIP论文阅读:Learning Transferable Visual Models From Natural Language Supervision
~~~~~目前一些图像分类模型在有图像标签的分类数据上训练后可以达到很好的效果,但是这需要额外的标签数据,这种受限的监督形式限制了模型的通用性和可用性。因此作者提出从原始文本中直接学习图像信息,这可以利用更广泛的监督来源。作者在一个从互联网收集的包含4亿图文对的数据集上训练,证明了预测哪个标题与哪张图片匹配的简单预训练任务是一种高效且可扩展的方法,能够学习到SOTA图像表示。~~~~~~预训练后,可以直接使用自然语言实现下游任务的零样本迁移。原创 2025-01-06 17:33:05 · 1954 阅读 · 0 评论 -
kosmos-1论文阅读:Language Is Not All You Need: Aligning Perception with Language Models
1、KOSMOS-1模型是个多模态语言模型,可以接收通用模态数据,同时仍具备指令遵循、上下文学习能力。2、给定上文,模型以自回归的方式学会生成文本。3、其核心是一个基于Transformer的因果语言模型(decode-only).4、文本、图像等模态的数据均被嵌入向量化后输入语言模型,模型作为多模态输入的通用接口。5、模型在多模态语料库上训练,包括单模态数据、跨模态配对数据和交错多模态数据。6、模型训练后可以在语言任务和多模态任务上直接评估零样本和少样本能力。原创 2025-01-06 15:09:25 · 677 阅读 · 0 评论 -
BLIP2论文阅读
大模型的端到端训练成本越来越高,视觉语言预训练模型的成本变得日益昂贵。本文提出了BLIP-2,一种通用且高效的预训练策略,通过冻结已有的预训练图像编码器和语言模型来增强视觉-语言预训练。引入一个轻量级的Querying Transformer模块进行模态对齐,分两个阶段对该模块进行预训练。第一阶段从冻结的图像编码器中学习视觉语言表示,第二阶段从冻结的语言模型中学习基于视觉的语言生成。BLIP-2的可训练参数数量显著少于现有方法,但在各种视觉-语言任务上仍达到了最先进的性能。原创 2025-01-03 19:52:17 · 674 阅读 · 0 评论 -
BLIP论文阅读
现有的视觉-语言预训练(VLP)模型只能处理理解型或生成型任务之一,此外性能的提升主要是通过扩大数据集规模,使用从网络上收集的噪声图像-文本对来实现的,这是一种次优的监督来源。作者提出BLIP这个新的VLP框架,它既能理解图像和文字的关系,也能根据图像生成文字描述。它通过改进字幕生成和过滤噪声数据,在多个任务中表现优异,比如图像搜索、图像描述生成和视觉问答。BLIP还能零样本迁移到视频-语言任务。原创 2025-01-02 22:12:59 · 844 阅读 · 0 评论 -
Flamingo论文阅读
多模态模型Flamingo论文阅读原创 2025-01-01 23:44:44 · 727 阅读 · 0 评论