论文下载
链接:https://pan.baidu.com/s/1_z0HbIB_aKs2YgGrsps0Aw?pwd=1234
提取码:1234
--来自百度网盘超级会员V5的分享
链接:https://pan.baidu.com/s/1ZrDzNsOI6B35oprexff0GA?pwd=1234
提取码:1234
--来自百度网盘超级会员V5的分享
要解决的问题
文本就是一个序列,里面有每个词,每个词都有一个对应的id(me:可以理解成ASCII码,但一个码数值不好解释整个词的意思,所以往往会使用词向量)
而对于图片展开成一个序列,每个特征点的id是不知道,特征点过多,我们希望模型给这些特征点打上标签,而不是人为去打上的
me:其实区别就是文字的类别是有限的;而图片的类别是无限的,无法人为打上标签
摘要
核心思想:主要两个视角view(两件事)
1:visual tokens
认为图片的特征点(或者说一个小区域)总共有n种(比如8000种,me:这个类别应该是模型要训练出来的);
之后这个小区域跟哪个类别最接近,就是属于该类别,即具备了标签
而这8000种图片类别称为特征库,或code book
当然每个类别应该有一个向量组成,这次更好地表达这个类别的意思(类似词向量)
2:image patches (patch是图像的一个区域)
有了标签的小区域,对于整个图片,我们遮挡一部分,之后通过其他小区域

文章探讨了BEIT在视觉任务中的预训练方法,通过训练特征库和离散视觉令牌,解决了Transformer对大量标注数据的需求。BEIT通过遮挡图像并训练模型预测原始图像的视觉标记,实现在下游任务中的优秀性能。
最低0.47元/天 解锁文章
2523

被折叠的 条评论
为什么被折叠?



