自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 Retrieval-Augmented Diffusion Models

Retrieval-Augmented Diffusion Models 通过深度整合CLIP和Diffusion模型,创造了一种新的生成范式:​​1.​​CLIP作为“眼睛和大脑”​​,负责理解用户意图(文本编码),并从海量知识库中(图像/文本编码和检索)找到最相关的参考资料。2.​​Diffusion模型作为“双手”​​,在生成图像的每一步,都同时聆听用户的描述(原始文本)和观察参考的资料(检索到的图像和文本),最终绘制出既富有创意又细节真实的作品。

2025-09-03 21:56:55 908

原创 VGDIFFZERO

大型文本到图像扩散模型通过利用预训练中的强大视觉语言对齐,在生成任务中展示了令人印象深刻的性能。然而,大多数视觉语言判别任务需要在精心标记的数据集上进行广泛的微调才能获得这种对齐,这需要在时间和计算资源上付出巨大代价。提出了VGDiffZero,这是一个新颖的零样本视觉定位框架,它利用预训练的文本到图像扩散模型的视觉语言对齐能力。探索直接应用预训练的生成扩散模型来解决视觉定位这一具有挑战性的判别任务,而不需要进行任何微调或额外的训练数据集。

2025-04-28 16:02:40 198

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除