
论文阅读
文章平均质量分 91
计算机视觉论文阅读笔记
阿呆喜欢吃菜菜
今天也要好好学习鸭
展开
-
Mastering Text-to-Image Diffusion:Recaptioning, Planning, and Generating with Multimodal LLMs ——论文笔记
本文提出了一种全新的免训练文本到图像生成/编辑框架,即Recaption,Plan and Generate(RPG),利用多模态LLM强大的思维链推理能力来增强文本到图像扩散模型的组合性。该方法采用MLLM作为全局规划器,将复杂图像的生成过程分解为多个子区域内的简单生成任务。本文提出了互补区域扩散以实现区域性成分生成。此外,本文以闭环方式将文本引导的图像生成和编辑集成在所提出的RPG中,从而增强了泛化能力。原创 2024-10-27 20:55:37 · 704 阅读 · 0 评论 -
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation——CVPR2023:论文笔记
用于“个性化”文本到图像的扩散模型,即让这些模型适应特定用户的图像生成需求。目标是扩展模型的语言-视觉词典,使得新的词汇能与用户希望生成的特定主体绑定。一旦这个新的词典被嵌入到模型中,它就可以使用这些词汇来合成该主体的新颖、逼真的照片,这些照片可以放置在不同的场景中,同时保留关键识别特征。这种效果类似于一个“神奇的照片亭”——只需拍摄几张主题的照片,照片亭就能根据简单直观的文本提示生成该主体在不同条件和场景下的照片。原创 2024-08-06 21:34:30 · 1037 阅读 · 0 评论