【AI论文】Visual Instruction Tuning
作者的目标是通过多模态指令微调(Visual Instruction Tuning)来训练一个通用的视觉助手,使其能够理解用户的语言指令并与视觉内容结合完成任务。例如,用户可以上传图片并提出问题,模型根据图片内容作出回答。现有的多模态指令执行模型大致可以分为以下两类:端到端训练的模型基于系统协调多个模型核心: 将图像的描述和边框输入给GPT,让GPT生成指令(对话、详细描述、推理性)。多模态数据的现状:解决方案:利用现有的图片-文本对:
问题: 此类简单扩展数据虽然成本低,但缺乏多样性和深度推理。
原创
2025-02-11 21:05:39 ·
1124 阅读 ·
0 评论