- 博客(437)
- 收藏
- 关注
原创 SDXL 和 SDXL-Turbo 的区别
SDXL-Turbo 是 SDXL 的蒸馏版本,latent space 结构基本一致,只是优化了推理路径。:SDXL-Turbo 的 latent 动态范围较小,训练 SAE/LoRA 可能不如 SDXL 稳定。:SDXL 的多步去噪能更好地捕捉语义方向,而 SDXL-Turbo 的快速推理可能丢失一些细节。(比如 SDXL 用 λ=2,SDXL-Turbo 用 λ=1)。,因为 SDXL 适合训练,SDXL-Turbo 适合推理。,但可能需要调整强度(λ)。,直接训练可能不稳定。,但可能需要调整 λ。
2025-06-11 11:26:49
217
原创 为什么 SDXL 用两个文本编码器?
如果需要进一步分析 SDXL 的文本编码机制,可以具体说明你的应用场景(例如特征提取、prompt 分析等)。OpenCLIP ViT-bigG 在 LAION-2B 上训练,擅长复杂语义。部分 SDXL 的微调模型(如 DreamBooth)可能仅使用其中一个编码器。OpenCLIP ViT-bigG 的层索引是 0-31(共 32 层)。CLIP ViT-L 的层索引是 0-11(共 12 层)。CLIP ViT-L 保持与 SD 1.x 的兼容性。在计算注意力或特征时,需明确指定是哪个编码器的输出。
2025-06-05 17:17:04
175
原创 Linux 脚本文件编辑(vim)
文件只是一个配置文件,Git 会在每次运行时读取它的内容。修改配置文件后,不需要重新编译 Git 或任何相关程序。文件是 Bash Shell 的配置文件,用于定义用户登录时的环境变量、别名、函数等设置。文件后,通常需要重新加载它,以使更改生效。3.检查网络配置或dl设置。
2025-06-02 22:28:13
567
原创 稀疏自编码器(SAE)为什么要稀疏?
SAE的稀疏性是其核心设计,通过约束特征激活的稀疏性,学习到可解释的、解耦的语义特征。在概念擦除任务中,这些特征被用于定位和操作特定概念(如“名人”“裸露”),而无需调整模型参数,实现了高效、精准的干预。其学习过程本质上是为输入数据构建一个稀疏的、语义明确的特征空间。F%5Etar。
2025-05-28 17:44:49
352
原创 重构损失(Reconstruction Loss) L mse 和 余弦相似性损失(Cosine Similarity Loss) L cos
衡量输入 x 和重构输出 x^ 之间的均方误差(MSE)。
2025-05-26 09:53:07
668
原创 稀疏自编码器(Sparse Autoencoder,SAE)
在稀疏自编码器(Sparse Autoencoder,SAE)中,是一个重要的参数,用于定义编码器隐藏层的维度相对于输入维度的扩展程度。具体来说,它表示编码层的维度是输入维度的多少倍。例如,如果输入维度是,扩张因子是,那么编码层的维度。
2025-05-22 13:51:07
423
原创 论文阅读Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model
交叉注意力(CA)对齐约束的目标是确保图像中的编辑部分与文本描述保持一致。通过计算目标图像与源图像之间的交叉注意力图差异,并最小化这种差异,优化过程能引导目标图像的潜变量,使其在指定区域内与文本提示对齐,从而实现准确的图像编辑。通过最大化编辑区域和非编辑区域的注意力(attention)差异来优化潜变量(ztz_tzt),这种反向指导编辑部分的思想在图像生成和编辑领域非常常见,尤其是在使用注意力机制和扩散模型的任务中。具体来说,这种方法属于引导生成过程。
2025-05-17 23:08:28
755
1
原创 “DiT和Flux”与“Stable Diffusion”两种不同的生成模型范式
Transformer通过旋转位置编码(RoPE)对位置信息进行编码,并应用多模态注意力机制(MMA),避免了数据压缩和放大过程中的丢失。:利用Transformer处理离散化的潜在表示,包括图像令牌和文本令牌,通过旋转位置编码对位置信息进行编码,然后应用多模态注意力机制进行去噪。:通过逐步添加噪声到初始输入信息中,模拟信息的扩散过程,再通过多次迭代逐渐去除噪声,最终得到清晰、准确的生成结果。:在细节处理和连贯性上表现更优,生成的图像质量更高,且在提示词遵循能力上更强。
2025-05-15 13:03:12
405
原创 人脸属性编辑的评估指标 Towards Scalable Human-aligned Benchmark for Text-guided Image Editing
计算该区域与目标属性文本(如“smiling face”)的CLIP相似度(σclip,aOFσclip,aOF)。例如,“Make her smile”属于“动作”属性,但更复杂的编辑(如“改变发型”)可能缺乏标注支持。仅支持GQA标注的4类属性(颜色、状态、材质、动作),而人脸相关属性(如表情、年龄、发型)未被明确涵盖。但受限于数据标注,复杂人脸编辑(如年龄、发型)的评估仍需进一步扩展。衡量编辑后的人脸是否匹配目标属性(如“微笑”)。(如分割人脸子区域)来改进(但未在本文中实现)。
2025-05-15 12:53:20
370
原创 显存优化:梯度检查点Gradient Checkpoint和梯度累积Gradient Accumulation
是两种不同的显存优化技术,虽然目标类似(减少训练时的显存占用),但实现原理完全不同。若想用更大的 batch size(如提升训练稳定性),可通过累积梯度实现,但不会减少单步显存占用。:显存占用可减少到原来的 1/√N(N 为模型层数),但会增加约 30% 的计算时间。:显存占用与小 batch 相同,但训练时间更长(因需多次前向/反向)。需要大 batch 但显存不足时(如目标检测、大语言模型微调)。:根据保存的检查点,重新计算被丢弃的中间结果(额外计算开销)。,模拟大 batch 的效果。
2025-05-11 11:48:27
418
原创 生成的评价指标(结构一致性) DINO Score
对源图像 ISIS 和目标图像 ITIT,提取它们的 DINO 特征向量 fSfS 和 fTfT。一种基于自监督学习的视觉 Transformer 模型(如 ViT),通过对比学习提取图像的。:对像素级变化敏感,无法区分语义结构(如椅子形状)和无关细节(如纹理噪声)。(基于 DINO 模型的语义相似度分数)。捕捉语义级相似性(如“椅子”是否还是“椅子”)。,是判断编辑方法是否破坏原始结构的关键指标。结构与源图像几乎一致(DS > 阈值)。(避免颜色差异干扰结构评估)。,是论文的核心评估指标之一。
2025-05-09 11:51:26
338
原创 stable diffusion的attention-map:提取和可视化跨注意力图
项目: 【可视化必备技能(1)】SD / Flux 文生图模型的 Attention Map 可视化-优快云博客参考:【可视化必备技能(1)】SD / Flux 文生图模型的 Attention Map 可视化-优快云博客
2025-05-08 23:31:53
262
原创 SDXL中调用 pipe.fuse_qkv_projections() 时(如 SD15 类的 __init__ 中所示),会自动启用 FuseAttnProcessor2_0
的优化版本,通过融合操作提升计算效率。,库内部会自动尝试使用。中所示),会自动启用。如果您的环境使用的是。
2025-05-08 17:08:23
215
原创 报错Detected that PyTorch and torchvision were compiled with different CUDA major versions. PyTorch ha
PyTorch 编译时使用的 CUDA 版本: 12.1。PyTorch 当前可用的 CUDA: True。PyTorch 版本: 2.1.0+cu121。CUDA 设备版本: (8, 6)
2025-05-08 09:29:41
421
原创 FastComposer论文问题与解决
使模型在训练中学会将文本token与图像区域精确对应。这一方法在多主体生成中至关重要,解决了传统扩散模型因注意力扩散导致的身份混合问题。,确保每个主体的特征仅影响图像中对应的区域。的实现是通过以下步骤完成的,核心思想是。在FastComposer中,跨注意力定位监督通过。
2025-05-06 23:31:50
239
原创 为什么要提出Null-text Inversion
像“预设一个虚拟目标(Null Prompt)的导弹”,先调整虚拟目标的参数,使得导弹飞行路径(噪声)既能无偏差抵达虚拟目标(重建原图),又能在需要时灵活转向真实目标(新文本编辑)。像“无目标的导弹”,反转噪声是无条件计算的,后续若想用文本引导(如“击中A点”),导弹(生成过程)会因缺乏初始目标而失控。扩散模型的生成过程受文本条件影响,而传统反转噪声是“无文本对齐”的。(即优化后的Null Prompt),而非完全无条件的噪声。通过优化Null Prompt的嵌入,,从而桥接反转与编辑的鸿沟。
2025-04-24 23:08:01
618
原创 Diffusion inversion后的latent code与标准的高斯随机噪音不一样
能隐约看出到最后一步还是会有“马”的形状。可视化latents_list如下;
2025-04-24 22:12:24
687
原创 Diffusion Model生成模型 属性解耦评估指标
如果需要某篇论文的具体评估协议(如(3)的用户研究问卷设计),可提供详细示例!以下是这7篇论文中使用的。
2025-04-24 15:17:33
649
原创 论文阅读Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via (2)
2025-04-23 11:14:57
249
原创 论文阅读Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via Con
Att-Adapter 是一款用于多属性控制的插件式模块,专门为文本到图像(T2I)扩散模型设计。它允许用户对生成的图像进行更精细的控制,特别是在涉及多个属性(如眼睛宽度、鼻子宽度等)的连续控制时。Att-Adapter 结合了。
2025-04-22 23:36:59
655
1
原创 论文阅读Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions
当前方法要么只能全局调整属性(如Concept Sliders),要么只能通过文本修改进行离散的局部调整(如Prompt-to-Prompt),无法同时满足连续性和主题特异性的需求。论文旨在解决文本到图像(T2I)扩散模型在生成图像时对个体主题(subject)及其属性(attributes)的精细控制不足的问题。,导致用户在生成图像时缺乏对特定主题属性的精细调节能力。现有方法无法同时实现。
2025-04-22 22:19:07
931
1
原创 论文阅读HARIVO: Harnessing Text-to-Image Models for Video Generation
确保视频的所有帧在语义上保持一致(例如,同一视频中的不同帧应描述相同的主体和场景,避免物体突变或语义漂移)。:DC损失通过对比学习显式约束视频帧的语义一致性,是HARIVO模型实现时间连贯性的核心组件之一。
2025-04-21 07:52:22
1147
1
原创 Understanding the Latent Space of Diffusion Models through the Lens of Riemannian Geometry 代码
【代码】Understanding the Latent Space of Diffusion Models through the Lens of Riemannian Geometry 代码。
2025-04-20 21:04:49
187
原创 论文阅读Discovering Interpretable Directions in the Semantic Latent Space of Diffusion Models
无监督:生成样本的h-space特征(PCA)或单张图像的h-space特征(Jacobian分析)。:用预训练分类器标注生成样本的属性(如微笑、眼镜),通过正负样本的h-space差值定义方向。:通过计算去噪器输出的Jacobian矩阵的奇异向量,发现图像特定的局部方向(如嘴部动作)。:对h-space中的瓶颈特征进行主成分分析,提取全局语义方向(如性别、姿态)。无监督:全局或局部语义方向(如PCA主成分、Jacobian奇异向量)。有监督:解耦的语义方向(如微笑方向、年龄方向)。)生成编辑后的图像。
2025-04-17 10:26:53
147
1
原创 一文详解 Latent Diffusion官方源码
一文详解 Latent Diffusion官方源码_diagonalgaussiandistribution-优快云博客
2025-04-16 14:53:25
185
原创 论文阅读PreciseControl: Enhancing Text-To-Image Diffusion Models with Fine-Grained Attribute Control
论文主要解决的问题是:现有的文本到图像(T2I)扩散模型在面部个性化生成和精细属性编辑方面存在局限性。
2025-04-11 20:02:21
1027
1
原创 论文阅读Diffusion Autoencoders: Toward a Meaningful and Decodable Representation
【代码】论文阅读Diffusion Autoencoders: Toward a Meaningful and Decodable Representation。
2025-04-04 21:33:05
258
原创 球面线性插值(Slerp)
球面插值通常用于在球面上进行插值计算,常见的方法有球面线性插值(Slerp)和球面三角插值。下面介绍一种常用的球面插值方法——。
2025-03-24 10:08:48
428
原创 ViT-Small与Vit-Base区别
隐藏层维度:384维(相较于ViT-Base的768维)Transformer块数:6个(相较于ViT-Base的12个)输出层:1000维,通常用于分类任务这些差异使得ViT-Small在计算和内存需求上更为轻量,但也可能导致其在某些复杂任务中的表现略逊色于ViT-Base。
2025-03-09 15:25:02
551
竞争性自适应重加权算法(CARS)
2024-09-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人