
多模态
文章平均质量分 67
x66ccff
编程爱好者
展开
-
【多模态】CLIP 笔记
利用超大的 (图片,文本) 对数据集,进行训练,使用 Text Encoder 和一个 Image Encoder,将每一张图片和文本转换成对应的特征图表示,然后配对的图片和文本对视作正样本,不匹配的图片文本对视作负样本,进行对比学习。...原创 2022-08-12 17:16:11 · 1063 阅读 · 0 评论 -
【多模态】DALL·E 2 笔记
《Hierarchical Text-Conditional Image Generation with CLIP Latents》(使用CLIP特征的 层次文本条件图像生成)原创 2022-08-12 16:04:59 · 3176 阅读 · 0 评论