
图像视频生成大模型
文章平均质量分 78
从AIGC一线的算法工程师出发,对图像视频生成大模型在算法层面进行分析,微调实践,对前沿算法进行跟进,对webui,comfyui以及fooocus等应用进行实践,以及和sd相关的应用改进算法,帮助从业者和学生快速入门AIGC文生图文生视频领域。
Kun Li
自古山高水远路,无一不为风尘苦。
展开
-
Infinite you:flexible photo recrafting while preserving your identity
Infiniteyou,引入了InfuseNet,作为controlnet的一种推广,能够接受id信息以及控制条件,通过残差连接,infusenet将投影的id特征注入到DiT基础模型中,从而使文本和id注入解耦。在训练过程中,投影网络和InfuseNet是可训练的,而其他模块保持不变,这种id特征的残差注入与通过注意力层的文本注入不同,有效的将文本和id输入分开,从而减少潜在的纠缠和冲突,得益于这种不依赖ipa的纯残差注入设计,基础的生成能力得到了更少的妥协,产生了更高质量和改善的文本-图像对齐。原创 2025-03-24 17:24:51 · 53 阅读 · 0 评论 -
ChatDiT:a training-free baseline for task-agnostic free-form chatting with diffusion transformers
该系统将用户意图转为话语上下文工具包兼容的格式,并规划处理大规模图像集的生成策略,这涉及将自有形式的自然语言指令和参考图像翻译为结构化参数,制定逐步策略以确保输入和目标图像之间适当的关系,并执行这些步骤利用上下文工具包生成高质量的输出。Group transformer和In-Context Lora中引入的图像生成范式,其中图像生成任务被设定为生成一组n>=1的目标图像,以另一组m>=0的参考图像为条件,并附加一个全面的提示,描述n+m图像的组合。从自然语言提示中生成高保真且风格多样的图像。原创 2025-02-26 11:17:04 · 40 阅读 · 0 评论 -
Step-video-T2V Technical report:The Practice,challenges,and future of video foundation model
人类反馈有效的提高了视觉质量,建议使用人工标注的反馈数据训练一个奖励模型,该奖励模型在训练过程中动态评估新生成样本的质量,奖励模型定期通过新的人工反馈进行微调,以保持与发展的策略的一致性。30B,DIT,Flow Matching,544x992,204帧,一个特殊设计的VAE实现了16x16空间和8x的时间的压缩比,两个双语文本编码器,使得step-video可以理解中文或者英文提示,引入一种级联的训练pipeline,包括文本到图像的预训练,文本到视频的预训练,监督微调sft以及直接偏好优化dpo。原创 2025-02-24 20:37:07 · 205 阅读 · 0 评论 -
ace++:Instruction-based image creation and editing via context-aware content filling
对于不包含参考图像的任务,如可控生成、图像修复和单图像编辑,ACE的LCU在token序列维度上拼接输入,与t2i相比,在dit的注意力输入中引入了额外的条件序列,将这些任务的条件输入从序列连接更改为通道维度连接,可以有效的减少模型适配成本。在训练上,两个阶段,第一阶段,用t2i的0-ref任务的任务数据预训练模型,flux.1-fill-dev也是这个思路,第二阶段,微调上述模型,关注模型重建输入参考图像和生成目标图像的能力,以知道模型学习上下文感知信息。原创 2025-02-24 17:32:04 · 44 阅读 · 0 评论 -
ace:all-round creator and editor following instructions via diffusion transformer
构建一个全能视觉生成模型的一大挑战在于多模态输入格式的多样性和支持任务的多样性,设计了一个统一框架,使用dit生成模型,以适应广泛的输入和任务,多轮绘图以及editor,1.分析了大多数视觉生成任务的条件输入,定义了条件单元condition unit,CU,该单元建立了一个统一的输入范式,包括图像掩码以及文本指令等核心元素。,考虑一个包含M个CU的LCU,模型为每个CU涉及三个入口点,一个语言模型T5,一个VAE将参考图像压缩为潜在表征,以及一个下次样模块将mask调整为相应潜在图像的形状。原创 2025-02-24 16:48:53 · 166 阅读 · 0 评论 -
[SaaS] 内容创意生产平台
7.原创 2025-01-27 13:06:52 · 96 阅读 · 0 评论 -
人物一致性训练测评数据集
测试:从VGGFace2中选取了每个id的一张图片,共500个id,用于生成的提示词仅限于简单的类别名词,如男性或者女性,多乐衡量多样性,提示词则是一个类别名词和一个表情词,如快乐,悲伤和生气的组合。测试:从CelebA-HQ中随机选择300个id进行评估,每一个id有一个参考图像你,此外,还收集了一个25个id的数据集,每个id下有4个图像用于多参考图像设置下的评估。测试:手动选取的额外id和一部分Mystyle数据,对于文本提示,考虑了6个因素,服饰,配饰,动作,表情,视角和背景。原创 2025-01-18 23:48:45 · 98 阅读 · 0 评论 -
ConsistentID:Portrait Generation with Multimodal fine-grained identity preserving
为了充分融合图像和文本,设计了一个面部编码器,以在文本序列的维度上无缝整合视觉提示和文本提示,给定facial embedding和text embedding,面部编码器最初采用自注意力机制将整个面部特征和面部区域特征对齐,从而得到对齐特征,N=5表示脸部的5个区域,包括眼睛、嘴巴、耳朵、鼻子和其他面部区域,下图的右侧是用facial替换的5个关键词,缺失的补0,最后,将已富含id信息的文本特征被输入到两个多层感知机中,已学习文本条件embedding。细粒度的面部视觉和文本embedding。原创 2025-01-15 15:30:43 · 40 阅读 · 0 评论 -
人物一致性测评方案
从互联网上收集了一个多样化的肖像测试集,该数据集涵盖了多种肤色、年龄和性别,共计120张图像,我们称之为DivID-120,作为补充资源,还使用了最近开源的测试集Unsplash-50,包含了2024年2月至3月期间上传到Unsplash网站的50张肖像图像。测试集包括15个对象和30个文本。原创 2025-01-14 10:24:39 · 64 阅读 · 0 评论 -
VBench:Comprehensive benchmark suite for video generateive models
为了评估物体的颜色是否符合指定条件,使用GRiT的描述能力来描述颜色,GRiT识别物体的边界框,然后将其送入两个文本编码器,一个预测类别,另一个用于生成合成视频帧的密集描述,然后我们验证对应物体的颜色是否在所有的帧中成功描述,在生成对应物体并且描述包含颜色信息的帧中,我们计算文本提示所需颜色成功描述的帧的百分比。对于真实视频,时间闪烁通常是频繁的光照变化或在视频捕捉过程中相机抖动造成的结果,对于生成的视频,时间闪烁是视频生成模型的内在属性,通常是由于局部和高频细节的时间不一致不好导致的。原创 2025-01-13 15:40:00 · 210 阅读 · 0 评论 -
Omost:llm生成可组合图像
在flux中,区域生成的方法也有很多,也不一定需要attention score这种做法,但是确实和attention score比较类似的。这段代码产生一个文本相关的画布,首先有一个针对全局的文本描述,然后是有各个主体的局部描述以及大小和位置,这样生成的图像其实一个全局+局部描述组合出来的图像。总共有9*9*9=729个矩形框,之所以是定义一些框,而不是llm来直接预测矩形框的坐标,因为前者更容易。画布还会和文本prompt关联,文本prompt包括一个全局的描述,同时也包括子主体的描述。原创 2025-01-08 11:14:08 · 75 阅读 · 0 评论 -
flux中的region control
i2i是图像到图像之间的自注意力,i2t是图像到文本之间的cross attention,t2i是文本到图像的cross attention,t2t是文本到文本的自注意力。文生图模型在准确处理具有复杂空间布局的提示时仍然面临挑战,1.通过自然语言准确描述特定的空间布局非常困难,特别是当对象数量增加或需要精确的位置控制时,2.模型的prompt fllowing在处理复杂元素和长文本的关系时,仍然会有漂移问题,如混淆概念和遗漏元素,因此显式的空间控制在组合生成中是有必要的。原创 2025-01-07 17:53:22 · 74 阅读 · 0 评论 -
Training-free regional prompting for diffusion transformers
i2i是图像到图像之间的自注意力,i2t是图像到文本之间的cross attention,t2i是文本到图像的cross attention,t2t是文本到文本的自注意力。文生图模型在准确处理具有复杂空间布局的提示时仍然面临挑战,1.通过自然语言准确描述特定的空间布局非常困难,特别是当对象数量增加或需要精确的位置控制时,2.模型的prompt fllowing在处理复杂元素和长文本的关系时,仍然会有漂移问题,如混淆概念和遗漏元素,因此显式的空间控制在组合生成中是有必要的。原创 2025-01-07 14:51:24 · 269 阅读 · 0 评论 -
Transparent image layer diffusion using latent transparency
https://zhuanlan.zhihu.com/p/685029401https://zhuanlan.zhihu.com/p/685029401https://zhuanlan.zhihu.com/p/684362351https://zhuanlan.zhihu.com/p/684362351https://github.com/huchenlei/ComfyUI-layerdiffusehttps://github.com/huchenlei/ComfyUI-layerdiffuseAdapti原创 2025-01-07 09:52:37 · 40 阅读 · 0 评论 -
OminiControl:Minimal and Universal control for diffusion transformer
2.add限制了条件和图像标记之间潜在的交互。编码的条件标记C1与噪点图像标记X具有相同维度和隐空间,使其能够被transformer块直接处理,因为条件标记和图像标记位于相同的隐空间中,OminiControl利用现有的DiT块来联合处理他们,只需要通过lora来对这些块进行最少的微调,以适应处理额外的条件标记。利用现有的架构,OminiControl重用基础DiT模型中的VAE编码器,将条件图像投影到与噪点图像标记相同的隐空间中,与clip以及controlnet的额外控制相比,减轻了架构的复杂性。原创 2025-01-03 11:37:26 · 86 阅读 · 0 评论 -
DiT架构特征融合方式
文章详细探讨了DiT的设计,包括不同条件信息的嵌入方法,并展示了最大模型DiT-XL/2在ImageNet 256x256类别条件生成任务上的优秀表现。本文探讨了如何将额外信息融入稳定扩散模型(stable diffusion),包括直接拼接、使用Spatialtransformers和cross-attention机制,以及Controlnet和Adapter设计。原创 2025-01-03 10:51:18 · 65 阅读 · 0 评论 -
Identity-Preserving Text-to-video Generation by Frequency Decomposition
为了解决这些问题,首先使用人脸识别主干提取内在id表征中强的特征,并使用clip图像编码器捕捉再予以强的特征,然后,我们使用Q-former来融合这两种特征,生成富含高频语义信息的内在身份特征,为了减少clip中无关特征的影响,在进入q-former之前应用dropout,此外,将经过插值处理的,来自人脸识别主干的浅层多尺度特征与clip特征进行连接,确保在有效捕获基本内在id特征的同时,过滤掉与id无关的外部噪声。为了减轻训练的复杂性,提出了一种分层策略,在该策略中,模型先全局学习信息,然后再局部学习。原创 2024-12-23 12:04:22 · 66 阅读 · 0 评论 -
ID一致性 train-free方法总结
采用了在人脸数据集上预训练的vit,native映射最终层的输出身份向量只能带来次优的身份保留,最终层主要包含适合于判别任务的高层语义,不是生成任务,比如相同身份的不同表情应该在面部识别训练损失下共享类似的表征,而生成则需要更详细的信息,比如面部表情,因此仅映射最后一层表征会成为生成任务的瓶颈,为了解决上述问题,利用了面部编码器的多尺度特征带来更真实的表征身份,具体来说,通过来自第3,6,9,12层的四个cls进行增强。保持文本的可编辑性,改变风格;原创 2024-12-18 11:02:22 · 75 阅读 · 0 评论 -
DreamIdentity:Improved Editability for efficient face-identity preserved image generation
2.训练和测试之间目标不一致。采用了在人脸数据集上预训练的vit,native映射最终层的输出身份向量只能带来次优的身份保留,最终层主要包含适合于判别任务的高层语义,不是生成任务,比如相同身份的不同表情应该在面部识别训练损失下共享类似的表征,而生成则需要更详细的信息,比如面部表情,因此仅映射最后一层表征会成为生成任务的瓶颈,为了解决上述问题,利用了面部编码器的多尺度特征带来更真实的表征身份,具体来说,通过来自第3,6,9,12层的四个cls进行增强。重建目标就是图2的c中的第一行,就是原图输出原图测。原创 2024-12-18 10:38:51 · 142 阅读 · 0 评论 -
Implicit style-content separation using lora
用于图像风格化的lora:lora通常用于图像风格化,通过微调模型以生成所需风格的图像,通常,一个lora在一组图像上训练,然后与控制方法结合,如风格概念滑块stylistic concept-sliders或者controlnet以及文本提示以调节生成图像的内容,尽管基于lora的方法在捕捉风格和内容方面显示了显著能力,但这个人物需要两个单独的lora模型。给定一个输入图像I,只微调lora权重W4和W5,目的是重建图像,针对一个一般的文本提示A[v],仅训练两层,其中W4捕获内容,W5捕获风格。原创 2024-12-06 21:29:46 · 144 阅读 · 0 评论 -
IC-Context lora for diffusion transformers
最终设计的框架通过在训练期间直接连接成一个大型图像,从而同时生成一组图像,同时将它们的标题整合为一个合并的提示,包含整体描述和每个storyboard的清晰指导,在生成图像之后,再将图像进行切分。为了支持对额外图像集的条件处理,采用了SDEdit,这是一种无训练方法,基于一个没有mask的图像集进行图像修补,所有图像均合并在一个大型图像内。文本到图像模型能够从一个包含多个描述的单一提示词中生成连贯的多张图像,因此可以使用合并的图像提示来简化架构,而不需要只关注其各自的文本标记token。原创 2024-12-06 21:27:54 · 239 阅读 · 0 评论 -
ComfyUI-PuLID-Flux-Enhanced中的train_weights优化
假设有一个real id embeddding,理想的表达了id特征,使用该embedding,可以获得最佳的id保真度。虽然我们使用选定的样本作为目标,但训练后的权重不会完美的指向目标,如果是这样,只需要使用选定的权重,无需训练。注意观察到pulid多了训练模块,但是pulid本身也没有什么问题,主要的问题还是在和lora结合时产生的一些变化,他会改变lora的一些风格特征。train_weights,可以用小于2000步进行训练,从而实现比非训练更深的融合,过多的训练步骤会导致训练崩溃。原创 2024-12-03 21:26:51 · 198 阅读 · 0 评论 -
sd-scripts-sd3中的flux_minimal_inference.py代码分析
【代码】sd-scripts-sd3中的flux_minimal_inference.py代码分析。原创 2024-11-26 11:59:41 · 72 阅读 · 0 评论 -
flux的权重版本
原生12B的模型,float16的。需要配合ae.safetensors,flux1-dev.safetensors以及clip-l和T5的权重使用,注意ae.sft和flux1-dev.sft只是之前的叫法,现在都改成safetensors了。Kijai大神的两个flux的fp8的版本,都是11.9G,这两个版本只是方法的差异,本身都是fp8的模型。这是个17.2G的fp8的模型,因为其包含了两个clip模型,因此是17.2G.4.flux-dev-fp8.版本2,Xlabs-AI。原创 2024-11-23 23:45:37 · 204 阅读 · 0 评论 -
Pulid:pure and lightning id customization via contrastive alignment
2.缺乏保真度,gan时代的经验,提高id保真度的一个直接想法是在扩散训练中引入id loss,扩散模型需要迭代去噪,准确获取X0需要多个多个步骤,直接从当前时间步预测X0,然后计算id损失,然而当当前时间步较大时,预测的X0往往是有嘈杂和有缺陷的,这种情况下计算id损失显然是不准确的,因为人脸识别backbone是在真实图像上训练的。可以解决上述两个挑战,1.为了最小化对原始模型行为的影响,构建了一个contrastive pair包括了相同的提示和初始化潜变量,分别进行id插入和不进行id插入。原创 2024-11-22 21:28:10 · 180 阅读 · 0 评论 -
flux代码解析
为了让transformer知道词语的前后关系,就要给transformer中的token注入某种位置关系,仅仅告诉每个token它的绝对位置是不够好的,这样做最明显的缺点是模型无法处理训练时没有见过的长序列,比如说训练集里最长的句子是512的位置编码,就不能很好的处理512之后的token,因此,我们不仅希望每个token知道自己的绝对位置,还希望token能从位置编码中知道相对位置的信息。cfg的本意是过两遍去噪模型,一次输入空文本,一个输入为给定文本,让模型远离空文本,靠近给定文本。原创 2024-11-21 21:25:51 · 188 阅读 · 0 评论 -
[SaaS] oppo生成ai端云落地实践
https://zhuanlan.zhihu.com/p/698776284https://zhuanlan.zhihu.com/p/698776284原创 2024-11-12 17:15:59 · 180 阅读 · 0 评论 -
[SaaS] 数禾科技 AIGC生成营销素材
https://zhuanlan.zhihu.com/p/923637935https://zhuanlan.zhihu.com/p/923637935原创 2024-11-12 13:51:42 · 239 阅读 · 0 评论 -
inpainting中Blend inpaint处理->回贴
【代码】inpainting中Blend inpaint处理->回贴。原创 2024-09-02 09:56:42 · 61 阅读 · 0 评论 -
可控扩散生成
通俗来讲,MultiDiffusion可以理解为Repaint的多Mask版本,它在每步中拼接多个区域生成的图像(根据叠加多少次来决定权重),然后寄希望于去噪过程的鲁棒性来消除边界处的不和谐。显然,因为不同区域核心处仍然互不干扰,最终生成的图像风格差异也难以避免。该方法的提出来源于两个重要的观察,其一,输入的文本 token 所对应的 Cross-Attention 具有很强的语义性(也是P2P所观察到的);有趣的是,作者探索并对比了两种不同的指导方式:其一,在推理的前向过程中施加区域限制,也即前向指导。原创 2024-11-05 15:54:02 · 91 阅读 · 0 评论 -
Training-free layout control with cross-attention guidance
来完成多个区域的绘制,也即 layout control。有趣的是,作者探索并对比了两种不同的指导方式:其一,在推理的前向过程中施加区域限制,也即前向指导。其二,类似Blended Diffusion中的基于梯度更新的思路,也即反向指导。支持两种模式,1.sd文生图;2.绑定了dreambooth和text inversion的图像编辑。原创 2024-10-31 19:40:20 · 152 阅读 · 0 评论 -
Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models
但跟P2P不同的是,Attend-and-Excite建立某个评价损失函数并反向传播梯度来刺激更新latent,而非直接通过加权来强制增大对应值。目前比较流行的以文生图模型,虽然能够生成很惊艳的图像,但是仍然可能无法完整表达文本提示中的语义信息。如图1下排所示,加上本文所提出的改进技术,就能生成具有完整语义信息的图像。的概念,试图在推理期间干预生成过程,以提高生成图像的可信度。如图1 上排右边所示,错误的将凳子的颜色生成了黄色。,从而指导模型生成文本提示中描述的所有。,或者将属性绑定到错误的。原创 2024-10-31 19:26:39 · 105 阅读 · 0 评论 -
When controlnet meets inexplicit masks:a case study of controlnet on its contour-following ability
利用LVIS中的实例mask,提供了精确的人为标注的coco图像的对象mask,涵盖了超过1200个对象类别,最终使用114k图像-标题-mask三元组用于训练,和4.7k用于测试,即coco-LVIS.sd1.5作为基模,在coco-LVIS上训练controlnet,10epoch,lr=1e-5,50%的cfg,unipc,50steps。文章本身很简单,主要就是探讨mask的变化对最终controlnet生成的影响,对mask进行膨胀,然后界定膨胀的程度是否会对生成的结果存在伪影。原创 2024-10-31 17:08:03 · 142 阅读 · 0 评论 -
diffusers中的pipeline_stable_video_diffusion和comfyui中的SVD_img2vid_Conditioning参数对应关系
SVD img2vid Conditioning|SVD_图像到视频_条件-ComfyUI节点 – ComfyUI-WIKI。comfyui中的augmentation_level对应哪个参数呢?主要涉及svd的参数,在comfyui中非常难调。原创 2024-10-15 14:27:57 · 142 阅读 · 0 评论 -
EasyAnimate
EasyAnimate v4是一个用于生成高分辨率和长视频的端到端解决方案。我们可以训练基于转换器的扩散生成器,训练用于处理长视频的VAE,以及预处理元数据。基于类SORA结构与DIT,使用transformer进行作为扩散器进行视频与图片生成。我们基于motion module、u-vit和slice-vae构建了EasyAnimate,未来我们也会尝试更多的训练方案一提高效果。原创 2024-10-10 14:44:30 · 211 阅读 · 0 评论 -
mask controlnet
主要关注sd-webui-controlnet,作者很积极的在跟进和controlnet相关的一些算法,inpainting和mask controlnet是有区别的。直接pip安装vllm 0.6.1.post2,vllm-flash-attn 2.6.1,flash-attn 2.6.3,先用internvl-2b打标的,效果很差,后改成blip打标。而常规的基于mask的,这一侧直接就是mask,还是有本质区别的。直接使用diffusers的train_controlnet代码。原创 2024-09-24 20:13:26 · 169 阅读 · 0 评论 -
电商视频动效数据集
大规模、内容驱动的短视频推荐数据集MicroLens,该数据集包含10亿个用户-短视频交互行为、3400万个用户和100万个短视频,另外还提供了关于短视频丰富的模态信息。主要用来训练视频动效的,这类数据集可能主要还是要自采,目前就先收集一波吧,自采的话,可能去商品页去抓取可能会好一点。2.我们自己从商品主图的页面拉了一批100个视频。原创 2024-09-19 17:04:10 · 208 阅读 · 0 评论 -
svd训练
本来是想仿照Admotiondirector和FL-Trainer写一个comfyui版本的svd训练的,其实已经开头了,但是想了一下时间有限,暂时搁置了,就拿svd_xtend库先训练吧,对于电商动效视频生成,目前我的集中点在:1.svd训练微调;2.考虑inpainting模式的i2v-adapter这种算法,是基于animatediff的,不过这类的参考资料本身其实并不多,从我的测评结果来看,并不算是很好的结果;EcommceVideoDataset数据集。原创 2024-09-19 16:37:23 · 134 阅读 · 0 评论 -
Flux1 模型
此外flux的VAE并不是直接采用sd3的VAE,而是重新训练了,模型结构一样,但参数不同,一个小细节就是sd3和flux的vae会对编码后的latent特征做评议和缩放,而不是之前vae仅做缩放,将latent特征分布的均值和方差归一化到0-1之间和扩散过程加的噪声在同一范围。最终Flux的模型大小是12B,比8B的SD3还大40%。Flux和sd3一样也采用了16通道的VAE,下面是一个512x512图像进过VAE压缩和重建的效果对比,从左到右以此为原图,sdxl,sd3和flux的重建图。原创 2024-09-19 10:18:23 · 495 阅读 · 0 评论 -
Kolors模型
LLava1.5/CogAgent/CogVLM支持中文,但是生成的描述不如英文描述,先生成英文描述,在翻译成中文。为了获取高质量的图像文本对,团队首先应用传统的过滤器(例如分辨率、OCR 准确性、人脸计数、清晰度和美观评分),从而将其减少到大约数千万张图像。其次,为了增强生成图像的真实感,团队利用OCR和MLLM为真实世界的图像(如海报和场景文本)生成新的描述,从而产生大约数百万个样本。首先,针对中文语料库,团队选取了50000个最常用的字,通过数据合成构建了数千万的图像-文本对的训练数据集。原创 2024-09-18 14:29:42 · 154 阅读 · 0 评论