
多模态大模型
文章平均质量分 92
多模态大模型
山顶夕景
互联网大厂AI算法工程师。实践出真知。
展开
-
【LLM】多模态LLM综述MultiModal Large Language Models
note(一)现有的 MM-LLM 的趋势:(1)从专门强调 MM 理解对特定模态的生成的进展,并进一步演变为任何到任何模态的转换(例如,MiniGPT-4 → MiniGPT-5 → NExT-GPT);(2) 从 MM PT 提升到 SFT,然后到 RLHF,训练管道进行连续细化,努力更好地与人类意图对齐并提高模型的会话交互能力(例如,BLIP-2 → InstructBLIP →DRESS);(3) 实施多样化模态扩展(例如,BLIP-2 → X-LLM 和 InstructBLIP→X-In原创 2024-06-02 13:05:46 · 3815 阅读 · 8 评论 -
【LLM多模态】CogVLM图生文模型架构和训练流程
Cogvlm模型共包含四个基本组件:ViT 编码器,MLP 适配器,预训练大语言模型(GPT-style)和视觉专家模块。- ViT编码器:在 CogVLM-17B 中,采用预训练的 EVA2-CLIP-E。也就是上图将图片进入vit encoder编码。在CogVLM-17B中,移除了ViT编码器的最后一层,因为该层专注于整合[CLS]特征以用于对比学习。- MLP 适配器:MLP 适配器是一个两层的 MLP(SwiGLU),用于将 ViT 的输出映射到与词嵌入的文本特征相同的空间。注:所有的图像特原创 2024-03-24 16:29:49 · 9316 阅读 · 2 评论 -
【Agent】AI智能体评测基座AgentCLUE-General
AgentCLUE-General借鉴了GAIA基准(https://huggingface.co/spaces/gaia-benchmark/leaderboard)对难度等级的定义,来定义难度等级:- 1 级问题通常只考察一个任务场景,解题所需要的步骤不超过 5 个。- 2 级问题通常只考察一个任务场景,解题需要 5 个以上的步骤(通常是6-10个)。如果是考察多个任务场景的“多场景组合”任务,解题步数一般也在6-10步。- 3 级问题通常是多个任务场景的组合,要求通用AI Agent能够支持足够原创 2025-04-20 22:09:45 · 318 阅读 · 0 评论 -
【图解Agent】A Visual Guide to LLM Agents
推理Reasoning增强推理能力:(1)通过提示工程,可以创建LLM应该遵循的推理过程示例。提供示例(也称为少量样本提示)是引导LLM行为的好方法。Chain-of-thought也可以通过零样本提示启用,而无需任何示例,只需简单地说“让一步一步思考”。(2)在训练LLM时,可以给它足够数量包含类似思维示例的数据集,或者LLM可以发现自己的思维过程。一个很好的例子是DeepSeek-R1,其中使用奖励来引导思维过程的使用。架构扩展模型容量,提升对用户兴趣的建模能力。会话式生成方法:与传统的逐点预测不同,OneRec 提出会话式生成方法,生成整个推荐列表,更好地捕捉上下文信息。迭代偏好对齐模块:结合直接偏好优化(DPO),通过奖励模型(RM)生成偏好数据,优化生成结果。实验表明,OneRec 在大规模工业数据集原创 2025-03-15 22:05:58 · 1980 阅读 · 0 评论 -
ICLR2025 | SLMRec: 重新思考大语言模型在推荐系统中的价值
问题背景:序列推荐(SR)任务旨在预测用户可能的下一个交互项目。近年来,大型语言模型(LLMs)在SR系统中表现出色,但它们巨大的规模使得在实际平台中应用变得低效和不切实际。研究动机:论文探讨了在SR领域中LLMs的必要性,以及是否存在模型规模和性能之间的不一致性。研究发现LLMs的许多中间层是冗余的。方法提出:基于上述发现,论文提出了一种名为SLMRec的方法,该方法采用简单的知识蒸馏技术来增强小型语言模型(SLMs)在SR任务上的性能。实验设计:论文在大规模行业数据集上进行了广泛的实验,以评原创 2025-03-15 20:59:39 · 1155 阅读 · 0 评论 -
【MLLM】GRPO在多模态LLM的应用
# note- VLM-R1: A stable and generalizable R1-style Large Vision-Language Model。域外数据集上性能比SFT要好- Open-R1-Video视频理解模型:为视频理解任务引入R1范式,开源训练代码和数据,用视频、查询和答案,使用GRPO训练,提升模型推理能力@[toc]# 一、VLM-R1: A stable and generalizable R1-style Large Vision-Language Model原创 2025-02-23 01:04:35 · 1094 阅读 · 0 评论 -
【LLM】deepseek多模态之Janus-Pro和JanusFlow框架
# note @[toc]# 一、Janus-Pro:解耦视觉编码,实现多模态高效统一anus-Pro是一个新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径,同时仍采用单一的Transformer架构进行处理,解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突,还提升了框架的灵活性。## 技术亮点- 视觉编码解耦:采用独立的路径分别处理多模态理解与生成任务,有效解决视觉编码器在两种任务中的功能冲突。- 统一 Transfo原创 2025-01-29 01:14:58 · 1795 阅读 · 1 评论 -
【ECCV2024】V-IRL: Grounding Virtual Intelligence in Real Life
这篇论文介绍了V-IRL平台,一个旨在弥合数字世界和物理世界之间感知差距的开源平台。通过V-IRL,代理可以利用真实的地理空间数据和街景图像,发展出丰富的感官锚定和感知能力。平台展示了其在创建多样化示例代理和开发全球基准测试方面的多功能性和适应性。未来的研究可以利用V-IRL开发和测试能够理解和与真实世界互动的代理。@[toc]# 一、相关背景V-IRL: Grounding Virtual Intelligence in Real Life论文地址:https://arxiv.org/a原创 2024-11-10 20:08:18 · 731 阅读 · 0 评论 -
【Agent综述】Agent在多模态交互的应用
这个工作收集了多模态游戏、机器人和医疗等领域的数据集,包括Minecraft视频数据、虚拟家庭环境数据和医疗图像数据。利用LLMs和VLMs作为智能体,特别是在游戏、机器人技术和医疗保健等领域- 这篇论文提出了一种新的Agent AI框架,通过结合大型基础模型、多模态理解和人类反馈,实现了在多模态环境中的有效感知和行动。研究表明,Agent AI系统在多模态任务中展现出巨大的潜力,特别是在游戏、机器人和医疗等领域。未来的研究可以进一步探索如何通过持续学习和自我改进来提高Agent AI系统的性能和适应性。原创 2024-11-10 01:22:41 · 1500 阅读 · 0 评论 -
【LLM多模态】文生视频综述From Sora What We Can See: A Survey of Text-to-Video Generation
Diffusion-based: 基于扩散模型的方法,如DDPM、Make-A-Video、VideoCrafter1、ModelScopeT2V、DiT等。- 视频扩散模型(VDM) 是这一领域的重要突破,通过3D U-Net架构和时间注意机制提升了视频生成的时间连贯性和质量。类似地,MagicVideo 系列模型利用潜在扩散方法应对复杂时间动态和高计算成本,生成高质量的视频。- LVDM 模型引入层次化潜在视频扩散,实现长视频的高效生成,并减少计算需求。Show-1 和 PixelDance 结合原创 2024-09-23 23:25:33 · 2469 阅读 · 0 评论 -
【LLM多模态】Animatediff文生视频大模型
AnimateDiff,这是一个实用的框架,用于在不需要特定调整的情况下,将个性化的文本到图像(T2I)扩散模型转换为动画生成器。1. 问题背景:现有的个性化T2I模型能够生成高质量的静态图像,但在生成动画方面存在挑战。作者提出了AnimateDiff,旨在解决这一问题。2. AnimateDiff框架:核心是一个可插拔的运动模块,它可以从真实世界视频中学习通用的运动先验,并与任何基于相同基础T2I的个性化模型集成,以生成动画。3. 训练策略:AnimateDiff的训练包括三个阶段: - 领域适原创 2024-09-23 22:56:51 · 1780 阅读 · 0 评论 -
【LLM多模态】视频理解模型Cogvlm-video和MVBench评测基准
- Cogvlm-video模型通过视频抽帧(24帧,每帧大小为224 x 224)后经过ViT进行图像编码(ViT中添加了2x2的卷积核更好的压缩视觉信息),使用adapter模块更好的将视觉特征和文本特征对齐,得到的图像特征和文本特征拼接后,送入语言模型的decoder解码器。- MVBench评测集准:大多数测试主要集中在静态图像任务上的空间理解,而忽视了动态视频中的时间理解。MVBench评测集准在20个视频理解任务上评测模型,20个任务可以分为九大类。下图展示了 MVBench 评测基准中的 2原创 2024-09-23 22:29:52 · 2863 阅读 · 0 评论 -
【LLM多模态】CogVideoX文生视频模型结构和训练过程
模型名模型介绍入门级模型, 兼顾兼容性。运行、二次开发成本低。视频生成质量更高,视觉效果更好的更大尺寸模型。推理精度FP16*(推荐), BF16, FP32, FP8* (E4M3,E5M2), INT8, 不支持INT4BF16(推荐), FP16, FP32, FP8*(E4M3, E5M2), INT8, 不支持INT4单GPU显存消耗多GPU推理显存消耗推理速度微调精度FP16FP16微调显存消耗(每卡)提示词语言English*English*提示词长度上限。原创 2024-09-15 15:06:51 · 3449 阅读 · 0 评论 -
【LLM多模态】文生视频评测基准VBench
Q: 这篇论文试图解决什么问题?A: 这篇论文提出了一个名为VBench的综合基准测试套件,旨在解决视频生成模型评估中存在的挑战。具体来说,它试图解决以下问题:1. 现有评估指标与人类感知不一致:传统的视频生成质量评估指标,如Inception Score (IS)、Fréchet inception distance (FID)、Fréchet Video Distance (FVD) 和 CLIPSIM,与人类的判断并不完全一致。这意味着这些指标可能无法准确反映人类对生成视频质量的真实感受。2.原创 2024-09-15 14:38:47 · 3046 阅读 · 0 评论 -
【LLM】文生视频相关开源数据集(VidGen、Panda、Cogvideox等)
note总结了VidGen数据集、Panda-70m数据集、Openvid数据集、OpenVid-1M数据集、Cogvideox训练数据准备过程在一篇综述中还总结了评估指标包括:峰值信噪比(PSNR)、结构相似性指数(SSIM)、Inception 分数(IS)、Fréchet Inception 距离(FID)、CLIP 分数、视频 Inception 分数(Video IS)、核视频距离(KVD)、帧一致性分数(FCS)各家提出的开源数据后,为了证明自己有效,会在上面这些不同指标评测文章目录原创 2024-09-01 15:38:10 · 2179 阅读 · 0 评论 -
【多模态LLM】多模态理解评测标准(图生文)
# note- 评测图片识别、理解、分析、推理能力;评测多轮对话;扩大评测场景(日常生活、教育娱乐等)- SuperClue-V采用6个标准,即正确性、相关性、流畅性、知识延伸、输出样式多样化、多感官信息融合,来定量的评价模型在所构建的指标下的表现能力,其中正确性、相关性、流畅性这三个指标设置为基础等级,旨在区分头部模型与一般模型的能力,而知识延伸、输出样式多样化、多感官信息融合这三个指标设置为扩展等级,旨在进一步区分头部模型之间的能力@[toc]# 一、图生文LLM评测标准文章地址:ww原创 2024-08-03 22:16:04 · 2133 阅读 · 1 评论 -
九类AI应用和Prompt技巧
AI+艺术:造梦日记、MidJourney、Stable Diffusion、Adobe、Stability、RemoveAI+聊天:ChatGPT、Discord、文心一言、Google Bard、星火、Character.AlAI+社区:Kaggle、Hugging Face、H20、Github、Replicate、OpenCVAI+创造:Heygen、RunwayML、Jasper、WriteSonicAI+设计:Figma、Canva。原创 2023-06-30 01:36:07 · 558 阅读 · 0 评论 -
【LLM多模态】DreamLLM多模态学习框架
## 1. 端到端的交错生成式预训练(i-gpt)所有自然文档都可以被视为文本和图像交织信息的载体。而仅有文本、仅有图像以及文本和图像配对的数据可以被看作是具有不同模态组合的交织语料库的特殊情况。因此,赋予模型学习和生成自由形式的交织文档的能力是至关重要的,以涵盖所有可能的分布。交错结构学习:为了建模交错结构,通过在图像之前添加一个特殊的"``"标记来操作交错序列。在训练过程中,DREAMLLM被训练来预测这个表示图像出现位置的""标记,并在之后进行条件图像合成。在推理过原创 2024-07-18 18:07:42 · 814 阅读 · 0 评论 -
【LLM多模态】Cogview3模型原理和训练过程
# note - 基础阶段:生成512×512分辨率的图像,优化模型以生成高质量的图像。 - 超分辨率阶段:从512×512的输入生成1024×1024分辨率的图像,进一步优化图像的细节和清晰度。 - 蒸馏版本:通过减少采样步骤,生成与原始模型相似质量的图像,但推理时间大大减少。@[toc]# 一、Cogview3模型论文:CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion相关背景:原创 2024-07-18 13:08:24 · 1545 阅读 · 0 评论 -
【LLM多模态】InternVL模型架构和训练过程
视觉编码器:InternViT-6B动态高分辨率(和很多多模态LLM不一样的地方):我们将图像根据输入图像的纵横比和分辨率划分为1到40块,每块为448×448像素(图像很大则会被切分,每个块被模型独立处理,可以更好地处理图像的细节),从而支持高达4K分辨率的输入(40个小块)。具体的处理方法如下图。使用pixel shuffle将视觉token减少到原来的四分之一(原始为1024个token)。PixelUnshuffle操作(即Space2Depth操作,即把相邻区块的特征从空间维度往通道维度上堆叠原创 2024-07-13 23:24:10 · 9573 阅读 · 0 评论 -
【多模态LLM】以ViT进行视觉表征的多模态模型1(BLIP、BLIP-2、InstructBLIP)
- CLIP和BLIP的区别: - CLIP:通过对比学习联合训练,预测图像和文本之间的匹配关系。即使用双塔结构,分别对图像和文本编码,然后通过计算cos进行图文匹配。 - BLIP:包括两个单模态编码器(图像编码器和文本编码器)、一个图像基础的文本编码器和一个图像基础的文本解码器。BLIP通过联合训练三个损失函数:图像-文本对比损失(ITC)、图像-文本匹配损失(ITM)和语言建模损失(LM),以实现多任务学习和迁移学习。 - 训练方式的区别:除了对比学习,BLIP还采用了一种高效率利用噪声网络数据原创 2024-07-01 21:53:49 · 2589 阅读 · 1 评论 -
【多模态/CV】图像数据增强数据分析和处理
多模态大模型训练前,图片处理的常见操作:分辨率调整、网格畸变、水平翻转、分辨率调整、随机crop、换颜色、多张图片拼接等。ORB(Oriented FAST and Rotated BRIEF) 是一种计算机视觉中常用的特征检测算法,它将 FAST 关键点检测和 BRIEF 描述符生成结合起来,同时引入了方向性和尺度不变性。使用 ORB 进行特征检测可以有以下几个应用:- 目标识别:在多幅图像中检测相同的ORB 特征点,并通过这些点的匹配确定目标物体的位置和方向- 图像匹配:在两幅图像中检测 ORB 特原创 2024-06-08 11:41:19 · 1801 阅读 · 7 评论 -
【LLM多模态】多模态LLM在图表处理的应用
在真实场景下,我们进行测试,多模态大模型在处理显著文本时表现尚可,但在处理细粒度文本时往往效果并不太好,why?具体原因如下:首先,视觉编码器的分辨率对于多模态大模型的性能影响较大,由于视觉信息往往包含大量的细节和复杂性,因此需要高分辨率的编码器来捕捉这些细节。但是,高分辨率编码器的计算成本也相应较高,这会限制模型的训练速度和效率。其次,现有的模型主要依赖于大规模的预训练数据集进行训练,而这些数据集往往只包含一些大规模常规或者合成的图像和文本,比如论文arxiv。因此,这些模型可能无法很好地处原创 2024-05-26 17:32:24 · 1449 阅读 · 0 评论 -
【LLM多模态】综述Visual Instruction Tuning towards General-Purpose Multimodal Model
新加坡-南洋理工大学发的paper,2023年12月我们还是从十大问题分析这篇论文,但由于是综述,可能没有实验环节详细的部分。# 1. 论文试图解决什么问题- 一篇关于Visual Instruction Tuning 视觉指令微调任务的综述,Visual Instruction Tuning是为了让多模态LLM拥有指令遵循能力- 文章介绍传统CV局限性(需要针对不同任务训练不同模型,缺乏交互能力),如下图左侧。- 文章从三方面介绍Visual Instruction Tuning的发展过程:单语言原创 2024-05-26 14:36:31 · 1080 阅读 · 0 评论 -
【LLM多模态】LLava模型架构和训练过程 | CLIP模型
CLIP使用了对比学习的方法,即通过正样本(匹配的图像-文本对)和负样本(不匹配的图像-文本对)来训练模型。在训练过程中,模型会尝试最大化正样本对的相似度(比如通过计算余弦相似度),同时最小化负样本对的相似度。CLIP模型在zero-shot学习中表现强大,可以直接用于zero-shot推理,比如将猫的图片emb后,将猪狗猫等类的文本描述也分别emb,计算图片和类别emb之间的相似度,从而进行分类。CLIP-ViT-L/14模型的14表示每个patch的分辨率为14X14,比如在224x224像素的图像原创 2024-05-23 23:17:11 · 31967 阅读 · 5 评论 -
【LLM多模态】多模态LLM的EMT灾难性遗忘评估框架
# note- 当前很多MLLM多模态大模型,用于视觉问答-聊天机器人,很少评估图片分类能力。在领域SFT数据微调后,EMT框架是评估微调后模型在几个分类数据集上效果,来评估是否出现灾难性遗忘- 实验现象:多数微调后模型的效果,比基础视觉编码器CLIP分数更低。评估的模型:用EMT来评估四个模型:LLaVA、Otter、LENS和InstructBLIP。- 微调实验结论:Lora微调比线性微调(微调线性适配器adapter)导致更多遗忘原创 2024-05-20 22:45:51 · 846 阅读 · 0 评论 -
处理DecompressionBombWarning: Image size (101896752 pixels) exceeds limit of 89478485 pixels
# 一、问题描述有如下的警告。这是因为Pillow默认设置了一个最大图像处理像素限制,目的是防止巨大图像的处理消耗过多的内存,可能导致拒绝服务攻击(DOS)。```python# warning如下:DecompressionBombWarning: Image size (101896752 pixels) exceeds limit of 89478485 pixels, could be decompression bomb DOS attack.```# 二、解决方案方法一:增加像原创 2024-05-09 00:15:18 · 770 阅读 · 1 评论 -
【LLM多模态】MiniGPT4模型架构和训练流程
- 图生文应用场景:比如电商领域根据产品图像生成产品描述、娱乐领域中根据电影海报生成电影介绍等- MiniGPT-4将预训练的大语言模型和视觉编码器参数同时冻结,只需要单独训练线性投影层,使视觉特征和语言模型对齐。- MiniGPT4的视觉编码器:使用了与BLIP-2相同的预训练视觉语言模型,该模型由2个部分组成: - 视觉编码器ViT(vision transformer):提取图像中的基本视觉特征。miniGPT-4使用了EVA-CLIP中的ViT-G/14进行实现(初始化该模块的代码如下) -原创 2024-05-02 09:14:45 · 2009 阅读 · 0 评论 -
【LLM多模态】Qwen-VL模型架构和训练流程
Qwen-VL模型的整体网络架构包括以下三个组件:大型语言模型(Large Language Model):- 作用:作为Qwen-VL模型的基础组件,这个部分采用了一个大型语言模型,其初始权重来自于预训练的Qwen-7B模型。- 来源:Qwen-VL的大型语言模型使用了来自Qwen-7B模型的预训练权重。视觉编码器(Visual Encoder):- 作用:视觉编码器采用了Vision Transformer(ViT)架构,用于处理输入图像并生成一组图像特征。在训练和推理过程中,将输入图像调原创 2024-04-25 22:39:54 · 13679 阅读 · 2 评论 -
解决报错OSError: cannot write mode RGBA as JPEG
# 一、问题描述如题:解决报错OSError: cannot write mode RGBA as JPEG,这个错误是在下面代码中出现的:```pythonfrom PIL import Image# 打开图片root_path = "xx"this_image_path = root_path + "example3/4.png"img = Image.open(this_image_path) # .convert('RGB')this_save_path = root_path +原创 2024-04-08 21:13:28 · 2593 阅读 · 0 评论 -
【多模态LLM】(task1)Sora相关技术路径
一、Sora是什么?Sora是text-to-video模型 (可能是世界模型),OpenAl的研究人员选择这个名字,因为它“唤起了无限创造力潜能”,特点是: 创建最多60秒的视频,高度详细的场景,复杂的多相机视角以及富有情感的多角色。Sora官网链接:https://openai.com/sora优点:连续多帧的视频。视频融合。同一场景的多角度/多镜头的生成能力。人和其他场景元素在三维空间中一致移动。支持任意分辨率,宽高比的视频输出。缺点:对物理规律的理解仍然有限。Sora能力总原创 2024-02-29 00:32:42 · 1119 阅读 · 0 评论 -
【LLM多模态】Cogview3、DALL-E3、CogVLM、LLava模型
丹青模型基于原生中文语料数据及网易自有高质量图片数据训练,与其他文生图模型相比,丹青模型的差异化优势在于对中文的理解能力更强,对中华传统美食、成语、俗语、诗句的理解和生成更为准确。VisualGLM 是一个依赖于具体语言模型的多模态模型,而CogVLM则是一个更广阔的系列,不仅有基于GLM的双语模型,也有基于Llama2系列的英文模型。之前的多模态模型:通常都是将图像特征直接对齐到文本特征的输入空间去,并且图像特征的编码器通常规模较小,这种情况下图像可以看成是文本的“附庸”,效果自然有限。原创 2024-01-30 22:57:32 · 3018 阅读 · 2 评论