【大模型系列】Video-LLaVA(2023.12)

kabuto_hui

已于 2024-08-04 21:04:53 修改

阅读量1.5k

点赞数 16

文章标签：人工智能深度学习大模型

于 2024-08-04 21:03:36 首次发布

本文链接：https://blog.youkuaiyun.com/kabuto_hui/article/details/140911561

版权

在这里插入图片描述

1 Video-LLaVA总结(省流版)

Video-LLaVA是北大袁粒团队提出的一个视觉理解模型，是他们之前工作的延申LanguageBind。
在这里插入图片描述
核心创新点： 通过将Image和Video特征隐射到一个统一的视觉空间进行对齐，得到统一的visual representation。

当前LLM模型的问题：

LLMs as scheduler： 视觉模型被作为即插即用模块，LLM根据特定的任务来schedule（VisualChatGPT、HuggingGPT、MM-REACT、ViperGPT），这些模型不需要端到端训练，也无需对每种模态进行联合和训练和对齐；
LLMs as decoder：
- MiniGPT-4：使用线性投影层将图像与文本对齐；这种对齐很弱且缺乏人类指令反馈；
- mPLUG-Owl：2阶段：先自回归将图像和文本对齐，再使用人类指令进行微调；
- InstructBLIP、LLaVA：使用人类指令数据集进行端到端训练；
- VideoChat、VideoLLaMA：通过联合训练来实现对齐，可同时处理图像和视频。

Video-LLaVA可以实现是视觉理解，即图像、视频问答：
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

LanguageBind [也是他们组的工作]：
- 能从多种模态(image、video)中提取特征隐射到文本特征的空间；
- 使用ViT-L/14初始化(OpenCLIP)；
- 参数冻结
LLM： Vicuna-7B v1.5；
Projection layer： 2 fully connected layers；
Word embedding layer： LLaMA；

Stage1 Understanding training：使用question+visual feature作为输入，answer作为gt；
- 558K LAION-CC-SBU image-text pairs
- 702k video-text pairs WebVid(Valley)
Stage2 Instruction tuning：对话轮数大于1时，需要concat之前所有的对话和回答作为输入；
- 665k image-text pairs LLaVA v1.5
- 100k video-text pairs Video-ChatGPT