
图像生成专栏
文章平均质量分 94
夜深人静打代码
对深度学习感兴趣的菜鸡
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
BLIP 和 BLIP2 的对比
blip与blip2的对比原创 2025-08-04 19:03:06 · 364 阅读 · 0 评论 -
(2023ICML)BLIP-2:使用冻结图像编码器和大语言模型引导语言-图像预训练
BLIP-2提出了一种高效的多模态预训练方法,通过两阶段训练策略和轻量级查询转换器(Q-Former)有效连接冻结的图像编码器和大型语言模型(LLM)。该方法采用188M参数的Q-Former作为视觉瓶颈,使用32个可学习查询嵌入提取语义化视觉特征,显著降低了传统多模态模型的计算成本(从百万美元级降至千美元级)。第一阶段通过对比学习、匹配和生成任务实现视觉-语言表征对齐;第二阶段将视觉特征作为软提示输入冻结LLM,避免语言能力退化。原创 2025-08-04 19:01:27 · 595 阅读 · 0 评论 -
(2022ICML)BLIP:用于统一视觉语言理解和生成的自引导语言图像预训练
BLIP提出了一种创新的视觉-语言预训练模型,通过多模态混合编码-解码器(MED)架构和CapFilt数据清洗策略,实现了理解与生成任务的统一支持。MED采用共享参数设计,包含单模态编码器、图像匹配文本编码器和解码器,分别优化对比学习、图文匹配和语言生成目标。CapFilt通过生成合成文本并过滤噪声数据,将数据集规模扩展至24.7M,显著降低了噪声率。实验表明,BLIP在图像描述、VQA和图文检索任务上均取得优异性能,验证了其架构设计的有效性和数据策略的实用性。原创 2025-08-04 18:57:55 · 749 阅读 · 0 评论 -
LoRA、ControlNet与T2I Adapter的区别
扩散模型微调技术对比:LoRA、ControlNet与T2I-Adapter LoRA通过低秩矩阵实现高效微调,适合风格迁移但控制力弱;ControlNet采用复制-隔离结构实现强约束,适合精确结构控制但训练成本高;T2I-Adapter通过轻量适配器支持多条件融合,平衡灵活性与效率。原创 2025-07-25 18:40:26 · 790 阅读 · 0 评论 -
(2023AAAI)T2I-Adapter:学习挖掘文本到图像扩散模型的更可控能力
文章摘要 T2I-Adapter是一种创新方法,通过轻量级适配器模块增强预训练文本到图像(T2I)模型的控制能力,无需修改原始模型参数。该方法支持多种控制条件(如草图、深度图、语义分割图等),并引入空间调色板实现精确颜色控制。关键创新包括非均匀时间步采样策略,强化早期生成阶段的条件引导;以及多条件组合机制,通过权重调节灵活整合不同控制信号。实验表明,T2I-Adapter在保持生成质量的同时,显著提升了图像生成的可控性,支持复杂场景的精确合成,为T2I模型的实际应用提供了更高效的解决方案。原创 2025-07-25 18:37:25 · 698 阅读 · 0 评论 -
《LoRA:高效的深度学习模型微调技术及其应用》
LoRA技术:高效微调大型深度学习模型 LoRA(低秩适应)是一种创新的深度学习模型微调技术,通过低秩分解原理将权重矩阵更新分解为两个小矩阵的乘积,大幅降低微调所需的计算资源和参数数量。该方法应用于Transformer等架构时,仅需更新少量低秩参数,同时冻结原始权重,实现了高效微调。实验表明,LoRA在自然语言处理、计算机视觉等任务中性能接近全参数微调,但计算成本显著降低。该技术特别适合资源受限场景下的大型模型适配,为深度学习模型的快速部署和个性化应用提供了可行方案。原创 2025-07-10 16:16:03 · 988 阅读 · 0 评论 -
2023ICCV,《ControlNet:向文本到图像扩散模型添加条件控制》
ControlNet创新性地解决了传统扩散模型在空间结构控制上的不足,通过双分支架构和零卷积技术实现对生成过程的精细调控。其核心是冻结原始U-Net模型保留生成能力,同时训练副本分支学习条件信号(如边缘图、深度图等)与生成的映射关系。零卷积层初始化为零确保训练稳定性,逐步学习条件控制逻辑。该方法支持多模态输入,在图像编辑、3D建模等场景展现强大控制力。实验表明,ControlNet能在不破坏原模型能力的前提下实现像素级精确控制,为可控生成领域树立了新标准。未来可拓展多条件融合和动态控制等方向,进一步释放生成原创 2025-07-09 16:44:49 · 860 阅读 · 0 评论 -
(2022CVPR)InstructPix2Pix:学习遵循图像编辑
《InstructPix2Pix:基于自然语言指令的图像编辑方法研究》 摘要: 本研究提出了一种创新的图像编辑方法InstructPix2Pix,通过融合GPT-3和Stable Diffusion模型,实现了根据自然语言指令进行图像编辑的目标。研究首先利用微调后的GPT-3生成图像编辑指令及对应的文本描述,再结合Prompt-to-Prompt方法创建包含45万样本的高质量训练数据集。在此基础上,构建了基于条件扩散模型的图像编辑系统,通过改进模型架构和引入无分类器扩散引导机制,实现了对真实图像的零样本泛化原创 2025-07-09 16:11:49 · 710 阅读 · 0 评论