自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

alovelypeach的博客

AI-医学论文

关注

文章平均质量分 93

关注数：文章数：1 文章阅读量：1124 文章收藏量：20

作者: 我很好请走开谢谢

这个作者很懒，什么都没留下…

展开

【AI论文】Visual Instruction Tuning

作者的目标是通过多模态指令微调(Visual Instruction Tuning)来训练一个通用的视觉助手，使其能够理解用户的语言指令并与视觉内容结合完成任务。例如，用户可以上传图片并提出问题，模型根据图片内容作出回答。现有的多模态指令执行模型大致可以分为以下两类：端到端训练的模型基于系统协调多个模型核心：将图像的描述和边框输入给GPT，让GPT生成指令（对话、详细描述、推理性）。多模态数据的现状:解决方案:利用现有的图片-文本对：问题: 此类简单扩展数据虽然成本低，但缺乏多样性和深度推理。

原创 2025-02-11 21:05:39 · 1124 阅读 · 0 评论