【阅读笔记】技术前沿(视觉-语言预训练、能量模型)

1. 视觉-语言预训练 (Vision-Language Pre-training,VLP)

预训练模型,生成图像标注,视觉问答

- 模型角度,基于编码器-解码器的模型在「图文检索」task中尚未成功实践

- 数据角度,SOTA:CLIP、SimVLM 文本噪声问题严重

本文提出 BLIP(Bootstrapping Language-Image Pre-training),用于统一视觉 - 语言理解和生成任务,通过自展标注(bootstrapping the captions),可以有效地利用带有噪声的 web 数据,其中标注器(captioner)生成标注,过滤器(filter)去除有噪声的标注。

论文地址:https://arxiv.org/pdf/2201.12086.pdf

代码地址:https://github.com/salesforce/BLIP

试玩地址:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值