建议
以下几篇都看一下吧,因为这几篇相对出发点都有新意,并且也都在同期的思南评测中有排名。
CLIP
*数据:用了4亿的互联网自有图文对数据。
*模型:由一个视觉编码器、一个文本编码器
*训练:一阶段预训练,在 32768 的batch size 下做的对比学习。
中文CLIP
*数据:由LAION 5B等构成一个2亿的图文对数据。
*模型:整体和CLIP类似,由一个视觉编码器、一个文本编码器。
*训练:两阶段预训练,权重来自CLIP等。第一阶段32768的batch size下冻结图像编码器,训练文本编码器;第二阶段,训练图像和文本编码器,batch size 和学习率降低。
BLIP
*1数据:4M的混合数据,coco、LAION等。数据清洗流