InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

论文:https://arxiv.org/pdf/2305.06500v1.pdf
代码:https://github.com/salesforce/LAVIS/tree/main/projects/instructblip

引言:


  • 由于来自不同领域的额外视觉输入,视觉-语言任务在性质上更加多样化,构建一个能够推广到广泛的视觉-语言任务的统一模型更具挑战性

  • 本文介绍了一个名为InstructBLIP的视觉语言指令调整框架,该框架通过一个统一的自然语言接口,使通用模型能够解决广泛的视觉任务

  • 文章贡献:

    • 对视觉语言指令调整进行了全面系统的研究,将26个公开数据集转换成指令调整格式并分成11个任务类别

    • 提出了一种指令感知的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值