- 博客(2)
- 收藏
- 关注
原创 Retrieval-Augmented Diffusion Models
Retrieval-Augmented Diffusion Models 通过深度整合CLIP和Diffusion模型,创造了一种新的生成范式:1.CLIP作为“眼睛和大脑”,负责理解用户意图(文本编码),并从海量知识库中(图像/文本编码和检索)找到最相关的参考资料。2.Diffusion模型作为“双手”,在生成图像的每一步,都同时聆听用户的描述(原始文本)和观察参考的资料(检索到的图像和文本),最终绘制出既富有创意又细节真实的作品。
2025-09-03 21:56:55
908
原创 VGDIFFZERO
大型文本到图像扩散模型通过利用预训练中的强大视觉语言对齐,在生成任务中展示了令人印象深刻的性能。然而,大多数视觉语言判别任务需要在精心标记的数据集上进行广泛的微调才能获得这种对齐,这需要在时间和计算资源上付出巨大代价。提出了VGDiffZero,这是一个新颖的零样本视觉定位框架,它利用预训练的文本到图像扩散模型的视觉语言对齐能力。探索直接应用预训练的生成扩散模型来解决视觉定位这一具有挑战性的判别任务,而不需要进行任何微调或额外的训练数据集。
2025-04-28 16:02:40
198
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅