图像生成
文章平均质量分 90
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
顶刊TPAMI!字节联合中科大重磅打造文本到图像定制化生成新范式!
论文链接:https://ieeexplore.ieee.org/abstract/document/11206511代码链接:https://github.com/bytedance/RealCustom项目链接:https://corleone-huang.github.io/RealCustom_plus_plus/突破传统方法存在的主体一致性和文本可控性之间的权衡取舍问题,创新性地将参考图主体表征为真实文本单词,通过解耦文本和参考图的影响区域,同时实现高度主体一致性和文本可控性;原创 2025-12-24 23:36:20 · 318 阅读 · 0 评论 -
彻底告别VAE!清华x可灵联手开源SVG-T2I:生成理解合二为一,性能媲美SD3
核心挑战:视觉基础模型虽然在理解与感知上表现出色,但其表征空间尚未被充分用于大规模、高质量的视觉生成。研究空白:在VFM特征空间内端到端地训练大规模文本到图像生成模型是一个未经充分探索的领域,缺乏相关验证和可行的方案。原创 2025-12-18 07:48:18 · 811 阅读 · 0 评论 -
视频模型降维打击?浙大&哈佛提出 IF-Edit:无需训练,用“生成视频”的思路修图!
IF-Edit 给我们提供了一个全新的视角:图像编辑不仅仅是 Image-to-Image 的翻译,更可以是 Image-to-Video-to-Image 的世界模拟。通过复用强大的视频生成模型,我们无需收集昂贵的成对编辑数据,就能实现懂物理、懂因果的 Zero-Shot 图像编辑。随着视频模型(如 Sora, Wan, HunyuanVideo)的不断进化,这种“降维打击”式的修图方法或许会成为未来的主流。原创 2025-12-16 13:52:48 · 884 阅读 · 0 评论 -
铁钉水上漂、子弹穿苹果不炸?Nano-Banana等17款SOTA模型颤抖迎物理逻辑推理大考!
核心能力缺失:当前文生图模型缺乏对隐含世界知识和物理因果推理的理解。它们能生成逼真且符合指令的图像,但在需要常识和逻辑推理的提示词上经常失败。评估体系不完善:现有的评估方法要么侧重于组合对齐(即图像是否包含提示词中提到的元素),要么依赖单轮视觉问答进行打分。这导致对知识基础、多物理交互和可审计的证据等关键维度的测试严重不足。评估方法不可靠:依赖多模态大语言模型进行整体评判的现有方法存在幻觉(看到不存在的东西)、中心倾向偏差(打分趋于中庸)等问题,无法进行精细、可靠的评估。原创 2025-12-15 23:15:58 · 690 阅读 · 0 评论 -
仅用1张图1小时,比肩FLUX.1和Qwen,推理狂飙5倍!Glance用“快慢哲学”颠覆扩散模型!
Glance框架采用轻量级蒸馏架构,通过相位感知的"慢-快"设计加速扩散模型推理。研究发现,LoRA适配器能够有效区分去噪过程的不同阶段,从而高效捕捉全局语义与局部细节。该框架仅需八步即可实现高质量图像生成,相比基础模型获得5倍加速。尽管仅使用单张图像和数小时GPU训练,Glance仍能保持相当的视觉保真度,并对未见提示词展现出强大泛化能力。原创 2025-12-12 07:30:07 · 779 阅读 · 0 评论 -
原生多模态统一架构比不过单模态专家模型?华为团队出品的EMMA “Say No”
华为发布EMMA,通过高效的编码器设计融合策略和网络结构语义共享及高层任务解耦机制,能够高效地完成原生多模态统一架构训练,最终配合上高质量的数据工程和训练方案EMMA能够在多模态理解、生成及编辑等榜单上大幅超过BAGEL。原创 2025-12-11 07:12:31 · 611 阅读 · 0 评论 -
多模态理解生成“大一统”!Meta&港大等重磅发布Tuna:统一视觉表征,性能碾压Show-o2
Tuna是一个创新的统一多模态模型,通过独特的统一视觉表示设计,在一个框架内实现了图像/视频理解、生成和编辑功能。该模型将VAE编码器与表示编码器直接连接,形成兼顾语义理解和细节生成的统一表示空间。实验表明,Tuna在多个基准测试中达到SOTA水平,性能优于现有解耦模型和统一模型。消融研究验证了其统一表示设计的优越性,证明了理解和生成任务间的协同效应。Tuna的成功为开发更高效的多模态AI系统提供了新思路。原创 2025-12-03 13:41:34 · 659 阅读 · 0 评论 -
《黑客帝国》雏形已现?腾讯造出“可对话游戏宇宙”,实时生成、任意交互,世界为你改变!
Hunyuan-GameCraft-2提出了一种指令驱动的交互式游戏世界模型,通过集成文本、键盘和鼠标信号实现语义化交互控制。该模型采用14B参数的MoE架构,结合自回归蒸馏与随机化长视频微调技术,支持高效稳定的长时序视频生成。创新性地定义了交互式视频数据标准,并开发了自动化数据构建管道。实验表明,模型在InterBench基准上取得SOTA性能,能以16FPS实时生成高质量交互视频,显著提升了动作有效性(触发率0.96+)、因果连贯性和物理合理性。原创 2025-12-02 13:34:31 · 637 阅读 · 0 评论 -
图像生成开源界又出“王炸”!南洋理工&阶跃星辰发布iMontage:解锁“多对多”生成新玩法!
摘要 iMontage提出了一种统一的多对多图像生成框架,能够处理可变数量的输入/输出帧,弥合了视频生成与高动态图像生成之间的鸿沟。该模型基于预训练视频骨干网络,通过低侵入式适配策略和任务无关的时序多样化数据管道,结合多任务训练范式,实现了跨异构任务的强大泛化能力。实验表明,iMontage在图像编辑、多条件生成、多视图合成等任务中性能卓越,部分效果媲美商业模型。其核心创新包括:1)混合多模态扩散Transformer架构;2)可分离时间RoPE的位置编码策略;3)分阶段课程训练方案。原创 2025-12-01 13:10:54 · 1770 阅读 · 0 评论 -
给图像生成配“阅卷老师”!RubricRL拒绝黑盒瞎蒙,用细粒度量表驯服大模型,指哪改哪!
本文提出RubricRL框架,通过动态生成可解释的评估量规来改进文生图模型的强化学习训练。该框架采用多模态大模型自动构建提示词自适应的细粒度视觉标准(如物体数量、OCR保真度等),并设计分组相对策略优化算法进行训练。实验表明,RubricRL在提升图像质量的同时,显著增强了训练过程的可解释性和用户可控性,在DPG-Bench和GenEval基准上性能优于现有方法4%。创新点包括:1)通用化量规奖励设计;2)提示词自适应加权机制;3)动态轨迹采样策略。原创 2025-12-01 13:05:07 · 706 阅读 · 0 评论 -
重磅!阿里达摩院发布首个VLA与世界模型统一架构RynnVLA-002:97.4%成功率刷新认知
《RynnVLA-002:统一视觉-语言-动作与世界模型的创新架构》 摘要:本文提出RynnVLA-002模型,首次将视觉-语言-动作(VLA)模型与世界模型统一于单一框架。该模型通过双向增强机制实现互补:世界模型利用物理规律优化动作生成,而VLA增强视觉理解以提升图像预测精度。创新性地采用混合动作生成策略,包括"动作注意力掩码"解决离散动作误差累积,以及连续ActionTransformer头确保实机操作的平滑性。原创 2025-11-25 23:32:56 · 1024 阅读 · 0 评论 -
第二弹!MIT何恺明团队再发重磅成果VARC:ARC原来是个视觉问题!性能匹敌人类水平
本文提出VisionARC(VARC)框架,首次将抽象推理语料库(ARC)重新定义为纯粹视觉问题,而非传统的符号逻辑问题。通过将ARC任务构建为图像到图像翻译问题,并采用标准视觉模型(如ViT)配合"画布"表示、几何数据增强和测试时训练等方法,VARC在ARC-1基准测试中达到54.5%准确率(集成后60.4%),仅需18M参数即超越现有递归/符号模型,接近人类平均水平。原创 2025-11-20 08:02:42 · 630 阅读 · 0 评论 -
新加坡国立等发布WEAVE:首个上下文交错式跨模态理解与生成全套解决方案
WEAVE提出首个面向多轮上下文感知图像理解与生成的研究体系,包含WEAVE-100k数据集(10万样本/37万轮对话/50万图像)和WEAVEBench评测基准(100任务/480图像)。实验表明基于WEAVE-100k的训练能提升模型9.8%理解能力和4.8%编辑性能,并激发视觉记忆能力涌现。基准评估揭示现有模型在多轮上下文生成中仍存在显著技术局限,尤其在长内容处理和世界知识整合方面表现不足。该研究为多模态上下文交错式理解与生成领域提供了重要基准和发展方向。原创 2025-11-19 23:12:48 · 814 阅读 · 0 评论 -
返璞归真!MIT何恺明再次颠覆生成模型:抛弃“去噪”,Diffusion模型直接预测干净图像!
本文提出了一种回归扩散模型本质的x-prediction方法,通过直接预测清晰图像而非噪声或速度,有效克服了高维像素空间建模的维度灾难问题。基于流形假设(Manifold Assumption),研究者设计了一种极简的JiT(Just image Transformers)架构,使用标准Vision Transformer直接在像素块上进行扩散生成,无需分词器、预训练或辅助损失。实验表明,该方法在ImageNet 256×256和512×512分辨率上取得优异性能,并能优雅扩展到1024×1024分辨率。原创 2025-11-19 23:08:05 · 1028 阅读 · 0 评论 -
AI合影毫无违和感!复旦&阶跃星辰重磅开源WithAnyone:可控、高保真多身份生成SOTA!
摘要: 论文提出WithAnyone框架,解决多身份图像生成中的“复制粘贴”伪影问题。通过构建大规模配对数据集MultiID-2M(含50万张多人照片)和评估基准MultiID-Bench,结合对比身份损失与四阶段训练策略,模型在保持身份一致性的同时显著减少伪影。实验表明,WithAnyone在生成保真度与多样性权衡上优于现有方法,用户研究验证其视觉质量与可控性优势。原创 2025-10-20 22:48:14 · 715 阅读 · 0 评论 -
速度质量我全都要!中科大&美团找到自回归生图“熵”密码,聪明采样提速15%且画质无损!
本文针对自回归(AR)图像生成中采样策略的不足,提出一种基于熵感知的动态采样方法。研究发现,图像token相比文本具有信息密度低、分布不均的特性,传统固定参数采样策略(如top-K/top-p)会导致结构混乱或细节缺失。通过分析预测token分布的熵与图像局部信息密度的关联,提出动态温度调整机制:对低熵区域(如纯色背景)增加随机性以丰富细节,对高熵区域(如复杂结构)采用严格采样以保持稳定性。原创 2025-10-15 22:42:48 · 613 阅读 · 0 评论 -
Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及
摘要: 本文提出SD3.5-Flash,一种高效的少步蒸馏框架,通过两项核心创新解决少步生成模型的挑战:1)时间步共享:利用学生模型轨迹的真实样本点替代重加噪估计,提升梯度稳定性,确保4步内生成高保真图像;2)分时间步微调:通过拆分模型专注不同时间步任务(如语义对齐与美学质量),缓解容量限制,合并后实现紧凑且高性能的模型。此外,进行全栈优化(文本编码器重构、精细化量化),使模型兼容从手机到数据中心的多类硬件。原创 2025-10-13 12:59:36 · 1291 阅读 · 0 评论 -
统一高效图像生成与编辑!百度&新加坡国立提出Query-Kontext,多项任务“反杀”专用模型
摘要: 本文提出Query-Kontext,一种经济型统一多模态模型(UMM),通过解耦视觉语言模型(VLM)的多模态生成推理与扩散模型的高保真渲染能力,提升图像生成与编辑性能。核心设计包括:1)多模态“Kontext”机制,将VLM输出的语义线索与扩散模型连接;2)三阶段渐进训练策略,逐步对齐VLM与扩散模型,增强各自优势;3)混合数据集,整合真实、合成及开源数据,覆盖文本生成、指令编辑等多样化任务。原创 2025-10-10 13:13:38 · 1216 阅读 · 0 评论 -
世界知识赋能文生图模型!港科大开源World-To-Image:自己上网搜图学习,准确率飙升8%!
本文提出WORLD-TO-IMAGE (W2I)框架,通过代理驱动的世界知识注入解决T2I模型的知识时效性问题。该框架包含协调代理、提示优化代理和图像检索代理,动态结合文本优化与视觉检索来增强语义对齐。在NICE等基准测试中,W2I在保持视觉质量的同时,将提示词准确率提升8.1%,尤其擅长处理新概念和组合性提示。实验表明其多模态优化策略显著优于传统方法,无需修改模型权重即可实现知识更新。原创 2025-10-08 15:56:14 · 825 阅读 · 0 评论 -
ICCV 2025 | 描述替代指令:南大联合vivo发布DescriptiveEdit,定义语义图像编辑新范式
本文提出DescriptiveEdit框架,创新性地采用描述(description)而非指令(instruction)引导图像编辑。通过AttentionBridge实现参考图控制,结合零初始化线性层自适应融合特征,有效解决传统方法在结构保真与语义编辑间的冲突。实验表明,该方法在EmuEdit测试集上多项指标领先,支持全局/局部编辑,且兼容ControlNet等扩展模型。核心突破在于:1)摆脱指令数据依赖,直接利用T2I模型能力;2)通过双系数调节实现编辑幅度灵活控制;3)保持原始架构兼容性。原创 2025-09-10 07:50:45 · 979 阅读 · 0 评论 -
让SDXL实现50倍加速!中山&字节最新对抗训练+双空间判别,单步生成新标杆!性能狂飙
【摘要】本文提出对抗分布匹配(ADM)框架,通过扩散判别器在隐空间对齐真实与伪造分数估计,替代传统显式散度度量,有效解决分布匹配蒸馏中的模式崩溃问题。创新性地采用混合判别器对抗蒸馏(ADP)进行预训练,结合ODE轨迹分布损失优化初始化,与ADM微调形成统一流程DMDX。在SDXL上实现50倍加速的一步生成,同时为SD3、CogVideoX等模型设立图像/视频高效生成新基准。实验表明,该方法在保真度、多样性和训练稳定性方面显著优于现有方案,尤其通过三次方时间步调度增强模式覆盖能力。原创 2025-08-18 11:02:19 · 1107 阅读 · 0 评论 -
自回归新王登基!NextStep-1强势登场,图像生成SOTA达成!高保真+强编辑,太能打了!
NextStep-1:连续图像流匹配自回归架构的突破 本文提出NextStep-1,一种创新的自回归模型,通过轻量级流匹配头(157M参数)实现高质量patch-by-patch图像生成,摆脱传统扩散模型依赖。核心创新包括: 统一多模态框架:结合14B参数的自回归主干,同时处理离散文本和连续图像token,避免量化损失。 高维隐空间稳定技术:通过通道归一化与随机扰动tokenizer设计,支持16通道稳定训练,消除伪影。原创 2025-08-18 10:55:24 · 799 阅读 · 0 评论 -
Lumina-mGPT 2.0横空出世:自回归模型终结扩散时代?媲美DALL·E 3,更自由、更全能!
摘要: Lumina-mGPT2.0提出了一种独立的自回归解码器模型,从零训练实现高质量多模态生成。与依赖预训练或混合架构的现有方法不同,该模型采用纯AR架构,支持图像生成、编辑、可控合成等统一任务。通过SBER-MoVQGAN分词器和多阶段训练策略,生成质量媲美DALL·E3等扩散模型。创新点包括推理时缩放提升质量、猜测式Jacobi采样加速解码,以及GPT-4o辅助的"生成前思考"优化提示。实验显示,其2B/7B版本在GenEval、DPG基准上表现优异,多任务能力超越同类模型。原创 2025-08-07 22:29:46 · 550 阅读 · 0 评论 -
ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”
本文提出DC-AR,一种高效的自回归文本生成图像框架。通过引入DC-HT混合tokenizer(32倍空间压缩率)和三阶段适应训练策略,解决了传统方法重建质量低的问题。DC-AR采用结构-细节分离生成机制:先预测离散token确定图像结构,再用残差token优化细节。实验表明,该方法在MJHQ-30K上取得5.49 gFID,推理速度比扩散模型快1.5-7.9倍,延迟降低2.0-3.5倍,仅需12步即可生成高质量图像,同时支持跨分辨率泛化。原创 2025-07-24 23:41:25 · 1211 阅读 · 0 评论 -
DiT迎来真·一致性之王!CharaConsist双杀角色变形&背景撕裂:跨场景换装不崩人设
本文提出CharaConsist,首个基于DiT架构的无需训练的一致性文本生成图像方法。针对现有方案在角色细节和背景一致性上的不足,该方法创新性地引入点追踪注意力机制和自适应Token合并技术:通过跨图像语义点匹配实现角色细粒度对齐,利用掩码提取分离前景/背景控制,并采用动态位置编码保持几何关系。实验表明,在背景保持与切换任务中,该方法在CLIP-I-fg/bg指标上分别超越基线模型15%/20%,且无需额外训练即可适配十亿级参数DiT。原创 2025-07-24 23:37:46 · 1039 阅读 · 0 评论 -
动脑就能P图!LoongX重磅突破:首个「脑波+AI」图像编辑系统诞生,意念修图不是梦!
摘要: 本文提出LoongX框架,利用多模态神经信号(EEG、fNIRS、PPG、动作及语音)驱动免手图像编辑,解决了传统文本提示的交互局限。通过跨尺度状态空间(CS3)编码器和动态门控融合(DGF)模块,LoongX高效提取并融合多模态特征,结合扩散模型(DiT)实现语义对齐。原创 2025-07-22 22:33:49 · 1041 阅读 · 0 评论 -
AI绘画翻车元凶找到了!新神器IMBA损失,在线轻调立竿见影,效果炸裂!清华&快手出品
本文提出IMBAloss方法,通过在线概念均衡提升生成模型的概念组合能力。研究首先分析了影响概念组合的三大因素:模型规模、数据规模和分布,发现数据分布是关键决定因素。针对数据不平衡问题,创新性地提出IMBA距离作为数据分布度量指标,并在此基础上设计自适应的IMBAloss损失函数,实现概念级均衡训练。为评估惰性概念组合能力,构建了Inert-CompBench基准测试集。实验表明,该方法在多个基准上显著提升组合成功率,尤其在处理低频概念时表现突出。原创 2025-07-22 22:30:22 · 968 阅读 · 0 评论 -
海报设计革命,开源媲美部分商用!港科大&美团等提出PosterCraft:让AI实现「构图自由」
摘要: PosterCraft提出了一种统一框架,通过四阶段级联优化(文本渲染优化、风格微调、美学强化学习、视觉-语言反馈)生成高质量海报,解决了传统模块化方法导致的视觉连贯性差问题。其核心创新包括:构建专属数据集(如Text-Render-2M、HQ-Poster-100K)、区域感知校准策略和基于偏好的强化学习。实验表明,PosterCraft在文本准确性、布局连贯性和美学质量上超越开源基准,媲美商业系统,为端到端海报生成提供了高效解决方案。项目资源(代码、论文、演示)均已开源。原创 2025-07-06 22:57:42 · 1003 阅读 · 0 评论 -
首个自回归文生图风格化!StyleAR突破AI绘图新高度:单张图+提示词,完美复刻任意风格!
当前多模态自回归(AR)模型虽在视觉生成中表现优异,但在风格对齐的文本到图像生成任务中仍面临挑战。该任务需要构建“文本-图像-图像”三元组数据(包含提示词、参考风格图像和目标图像),但大规模获取这类具有特定风格的三元组数据十分困难。现有方法在训练中容易出现内容泄露问题,影响生成图像的风格一致性和语义对齐。原创 2025-06-09 00:38:12 · 1191 阅读 · 0 评论 -
图像生成里的“思维链”对决:DPO与GRPO谁主沉浮?港中文&北大等首发系统化对比研究
这项开创性研究为图像生成领域引入 RL 思维链机制提供了系统的理论与实证支撑。DPO 与 GRPO 并非简单的“优劣之分”,而是更适合于不同场景:DPO 适合在已有高质量数据基础上深度优化,追求精细化输出GRPO 则适合泛化需求高、任务分布多样的实际应用环境与此同时,研究也强调了奖励模型作为“训练导航仪”的重要性,未来在奖励模型的泛化性设计上仍有很大提升空间。原创 2025-06-09 00:34:18 · 1024 阅读 · 0 评论 -
多模态与生成正迈向终极大一统!阿里最新3万字长文梳理统一的多模态理解和生成模型
本文综述了统一多模态理解与生成模型的最新进展、挑战与机遇。首先,文章介绍了多模态理解与文本生成图像模型的基础概念,并梳理了现有统一模型的三大架构范式:基于扩散的架构、基于自回归的架构,以及融合自回归与扩散机制的混合架构。随后,文章整理了适配统一模型的数据集与评测基准,为后续研究提供资源支持。文章还探讨了该领域面临的核心挑战,包括分词策略、跨模态注意力机制与数据问题。原创 2025-05-11 23:22:24 · 2170 阅读 · 1 评论 -
无需外挂!DiT自蒸馏神技SRA横空出世:偷偷自学的表征对齐术让生成质量暴涨!
Diffusion transformer在视觉生成领域展现出了有效的可扩展性和可迁移性。最近的研究发现高质量的内部表征能够加速其生成训练,并提升生成样本的质量然而,现有方法在提供表征指导时,要么引入复杂训练框架,要么依赖大规模预训练模型,这限制了其应用场景和资源效率。原创 2025-05-08 23:47:07 · 812 阅读 · 0 评论 -
只需一张图,万物皆可插!Insert Anything开源啦!开创AI图像插入新时代|浙大&哈佛等
任务局限性:现有方法仅针对特定任务(如人物插入、服装插入),缺乏通用性。控制模式单一:依赖固定控制方式(仅掩码或仅文本引导),灵活性不足。视觉-参考不协调:插入内容与目标场景风格不一致,或丢失参考图像的细节特征。原创 2025-04-24 22:24:09 · 903 阅读 · 0 评论 -
45倍加速+最新SOTA!VAE与扩散模型迎来端到端联合训练:REPA-E让VAE自我进化!
现有隐空间扩散模型(LDM)采用两阶段训练(先训练VAE,再固定VAE训练扩散模型),导致两个阶段的优化目标不一致,限制了生成性能。直接端到端联合训练VAE和扩散模型时,传统扩散损失(Diffusion Loss)失效,甚至导致性能下降。原创 2025-04-23 08:01:51 · 1293 阅读 · 0 评论 -
突破传统“非此即彼”,真灵魂P图!腾讯最新FlexIP黑科技:身份保持和个性化我都要!
身份保持与编辑灵活性的固有矛盾:现有方法在生成模型中难以同时实现高保真身份保持和多样化个性化编辑,通常需要在两者之间做出权衡。跨模态对齐不足:传统零样本方法依赖视觉-语言对齐模块(如Q-former),导致图像生成任务中视觉与文本信息未能有效协同,影响身份保持和编辑效果。控制粒度不足:现有方法通过单一参数调整身份保持强度时,往往产生突变效果,缺乏连续、精细的控制能力。原创 2025-04-13 10:10:24 · 840 阅读 · 0 评论 -
图像编辑进入“精修时代”!“指哪改哪”!北交&美图发布DCEdit:改图不伤背景的终极方案
文本引导图像编辑任务面临的关键挑战是精确定位和编辑目标语义,而以往的方法在这方面存在不足。原创 2025-04-12 08:57:27 · 1146 阅读 · 0 评论 -
单一模型统一多图个性化生成!字节重磅开源UNO, FLUX版训练、推理、权重全开源!
字节开源UNO,渐进式数据生成框架和通用定制化模型,实现了从单主体到多主体的高质量图像生成。在多个任务中取得了卓越的性能,包括单主体和多主体驱动的图像生成,并且能泛化到身份保持,换装,风格化等场景。原创 2025-04-11 23:33:08 · 1541 阅读 · 0 评论 -
业界首款多实例智能线稿上色系统来啦!港科大提出MagicColor:零基础也能产出专业级彩色漫画!
多实例线稿上色的效率与准确性:传统的手工上色方法需要艺术家逐个实例上色,效率低下且容易出错。训练数据不足:现有的生成方法由于缺乏多实例配对数据,难以有效解决多实例上色任务。实例级控制与颜色一致性:现有方法在实例级控制上表现不佳,容易导致颜色失真和细节丢失,且难以保持颜色一致性。原创 2025-03-29 23:21:08 · 988 阅读 · 0 评论 -
FLUX秒变高玩!DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题(浙大&哈佛)
多实例内容控制不准确:现有图像生成模型(如FLUX和3DIS)在控制多个实例(或区域)的内容时存在困难,容易出现属性泄漏问题,导致用户无法精确控制每个实例的视觉属性。文本嵌入与视觉信息绑定不准确:现有的文本到图像模型(如T5文本编码器)仅基于文本数据进行预训练,缺乏视觉信息,导致在多实例控制场景下,文本嵌入容易与错误的视觉属性绑定。图像质量与控制的平衡:在联合注意力机制中,过度限制图像标记的注意力范围会导致图像质量下降,而过于宽松的控制则无法保证每个实例的视觉属性准确生成。下图 2 展示了的概览。原创 2025-03-25 23:04:35 · 1417 阅读 · 0 评论 -
性能狂飙89%! 新加坡国立开源Conceptrol:让个性化图像生成更懂你的文字提示
个性化图像生成中的平衡问题:现有的zero-shot adapters方法(如IP-Adapter和OminiControl)在生成个性化图像时,难以平衡保留参考图像内容和遵循文本提示的要求。生成的图像往往只是复制个性化内容,而不是根据文本提示进行调整。设计缺陷:现有的adapters在将个性化图像与文本描述结合时存在设计缺陷,导致生成的图像无法充分利用基础文本到图像扩散模型的概念理解能力。原创 2025-03-25 23:01:22 · 996 阅读 · 0 评论
分享