GLIP，FLIP论文阅读

最新推荐文章于 2024-11-19 11:34:35 发布

KC1B

最新推荐文章于 2024-11-19 11:34:35 发布

阅读量653

点赞数

分类专栏：论文笔记文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_52038588/article/details/133994579

版权

论文笔记专栏收录该内容

35 篇文章

订阅专栏

Scaling Language-Image Pre-training via Masking（FLIP，2023）👍

请添加图片描述

贡献：

1.图像端引入MAE的随机MASK，image encoder只处理未mask的patches（和之前的MAE方法一致），减少了输入序列长度加速训练，减少memory开销。

text端没引入mask是因为text信息比较dense（图片信息比较稀疏），mask掉效果反而不好，之后是选择mask掉text
padding的地方提升了精度。

2.做了三个方面的scale：说明model和data的scale还是很重要的，不同数据集相同大小也会对模型造成影响

model scaling：vit变大，效果很直观的好
data scaling：将预训练数据集从LAION-400M扩展到更大的数据集LAION-2B（固定训练过程采样的样本总量）
schedule scaling：增加训练过程的采样数据量（从12.8B->25.6B，即训练epochs从32增加至64）

请添加图片描述
下图绿色划线：增大VIT有利于transfer learning，增加数据量有利于做zero shot

模型

请添加图片描述

Ablation study

请添加图片描述

（a）我觉得可能提升的一个因素是bz大了，负样本也多了，效果好，作者不做相同bz的实验
（d）说明了减少mask率微调几个epoch有有助于提升精度

GLIP：Grounded Language-Image Pre-training（2022）👍

模型：

请添加图片描述

Language-Aware Deep Fusion：

1.image encoder 和 text encoder 抽取图像和文本的特征
请添加图片描述
2.对抽取的特征进行cross attention ，获得更好的交互后的特征：

X-MHA：cross-modality multi-head attention module，类似cross attention，qk算attn，各自的v分别算一次

请添加图片描述
上图（B）是在（A）的基础上添加了deep fusion，涨点还是很明显的，增加数据量涨点也很明显

博客等级

码龄5年

53
原创

81
点赞

165
收藏

22
粉丝

关注

私信

热门文章

分类专栏

论文笔记 35篇
算法 1篇
Pytorch实现 4篇
KanColle 1篇

展开全部收起

最新评论

Adobe Illustrator如何在图片快速插入latex公式
m0_57606497: 老哥可以试着安装latex2Ai的老版本比如0.08版本
CLIP Surgery论文阅读
北舟zhou: 啊？看到了一些这篇文章后续的研究中了，没想到这篇没中，真是悲伤
CLIP Surgery论文阅读
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
CLIP Surgery论文阅读
inscredion: 正好看到了这篇工作，里面的冗余特征机制有效果，BTW，这篇Paper没有中CVPR，至今貌似还是arXiv
ESM蛋白质语言模型系列
赶路人@a: esm2的都包含哪些嵌入，嵌入过程是怎么样的

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。