不当菜鸡的程序媛-优快云博客

原创 SDXL 和 SDXL-Turbo 的区别

SDXL-Turbo 是 SDXL 的蒸馏版本，latent space 结构基本一致，只是优化了推理路径。：SDXL-Turbo 的 latent 动态范围较小，训练 SAE/LoRA 可能不如 SDXL 稳定。：SDXL 的多步去噪能更好地捕捉语义方向，而 SDXL-Turbo 的快速推理可能丢失一些细节。（比如 SDXL 用 λ=2，SDXL-Turbo 用 λ=1）。，因为 SDXL 适合训练，SDXL-Turbo 适合推理。，但可能需要调整强度（λ）。，直接训练可能不稳定。，但可能需要调整 λ。

2025-06-11 11:26:49 217

原创为什么 SDXL 用两个文本编码器？

如果需要进一步分析 SDXL 的文本编码机制，可以具体说明你的应用场景（例如特征提取、prompt 分析等）。OpenCLIP ViT-bigG 在 LAION-2B 上训练，擅长复杂语义。部分 SDXL 的微调模型（如 DreamBooth）可能仅使用其中一个编码器。OpenCLIP ViT-bigG 的层索引是 0-31（共 32 层）。CLIP ViT-L 的层索引是 0-11（共 12 层）。CLIP ViT-L 保持与 SD 1.x 的兼容性。在计算注意力或特征时，需明确指定是哪个编码器的输出。

2025-06-05 17:17:04 175

原创统计1的个数

【代码】统计1的个数。

2025-06-02 23:04:50 78

原创 Linux 脚本文件编辑(vim)

文件只是一个配置文件，Git 会在每次运行时读取它的内容。修改配置文件后，不需要重新编译 Git 或任何相关程序。文件是 Bash Shell 的配置文件，用于定义用户登录时的环境变量、别名、函数等设置。文件后，通常需要重新加载它，以使更改生效。3.检查网络配置或dl设置。

2025-06-02 22:28:13 567

原创 excel生成随机种子

键，该单元格就会生成一个 1 到 50000 之间的随机整数。

2025-05-29 14:35:27 93

原创稀疏自编码器（SAE）为什么要稀疏?

SAE的稀疏性是其核心设计，通过约束特征激活的稀疏性，学习到可解释的、解耦的语义特征。在概念擦除任务中，这些特征被用于定位和操作特定概念（如“名人”“裸露”），而无需调整模型参数，实现了高效、精准的干预。其学习过程本质上是为输入数据构建一个稀疏的、语义明确的特征空间。F%5Etar。

2025-05-28 17:44:49 352

原创重构损失（Reconstruction Loss） L mse 和余弦相似性损失（Cosine Similarity Loss） L cos

衡量输入 x 和重构输出 x^ 之间的均方误差（MSE）。

2025-05-26 09:53:07 668

原创稀疏自编码器（Sparse Autoencoder，SAE）

在稀疏自编码器（Sparse Autoencoder，SAE）中，是一个重要的参数，用于定义编码器隐藏层的维度相对于输入维度的扩展程度。具体来说，它表示编码层的维度是输入维度的多少倍。例如，如果输入维度是，扩张因子是，那么编码层的维度。

2025-05-22 13:51:07 423

原创论文阅读Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model

交叉注意力（CA）对齐约束的目标是确保图像中的编辑部分与文本描述保持一致。通过计算目标图像与源图像之间的交叉注意力图差异，并最小化这种差异，优化过程能引导目标图像的潜变量，使其在指定区域内与文本提示对齐，从而实现准确的图像编辑。通过最大化编辑区域和非编辑区域的注意力（attention）差异来优化潜变量（ztz_tzt），这种反向指导编辑部分的思想在图像生成和编辑领域非常常见，尤其是在使用注意力机制和扩散模型的任务中。具体来说，这种方法属于引导生成过程。

2025-05-17 23:08:28 755 1

原创 “DiT和Flux”与“Stable Diffusion”两种不同的生成模型范式

Transformer通过旋转位置编码（RoPE）对位置信息进行编码，并应用多模态注意力机制（MMA），避免了数据压缩和放大过程中的丢失。：利用Transformer处理离散化的潜在表示，包括图像令牌和文本令牌，通过旋转位置编码对位置信息进行编码，然后应用多模态注意力机制进行去噪。：通过逐步添加噪声到初始输入信息中，模拟信息的扩散过程，再通过多次迭代逐渐去除噪声，最终得到清晰、准确的生成结果。：在细节处理和连贯性上表现更优，生成的图像质量更高，且在提示词遵循能力上更强。

2025-05-15 13:03:12 405

原创人脸属性编辑的评估指标 Towards Scalable Human-aligned Benchmark for Text-guided Image Editing

计算该区域与目标属性文本（如“smiling face”）的CLIP相似度（σclip,aOFσclip,aOF）。例如，“Make her smile”属于“动作”属性，但更复杂的编辑（如“改变发型”）可能缺乏标注支持。仅支持GQA标注的4类属性（颜色、状态、材质、动作），而人脸相关属性（如表情、年龄、发型）未被明确涵盖。但受限于数据标注，复杂人脸编辑（如年龄、发型）的评估仍需进一步扩展。衡量编辑后的人脸是否匹配目标属性（如“微笑”）。（如分割人脸子区域）来改进（但未在本文中实现）。

2025-05-15 12:53:20 370

原创显存优化：梯度检查点Gradient Checkpoint和梯度累积Gradient Accumulation

是两种不同的显存优化技术，虽然目标类似（减少训练时的显存占用），但实现原理完全不同。若想用更大的 batch size（如提升训练稳定性），可通过累积梯度实现，但不会减少单步显存占用。：显存占用可减少到原来的 1/√N（N 为模型层数），但会增加约 30% 的计算时间。：显存占用与小 batch 相同，但训练时间更长（因需多次前向/反向）。需要大 batch 但显存不足时（如目标检测、大语言模型微调）。：根据保存的检查点，重新计算被丢弃的中间结果（额外计算开销）。，模拟大 batch 的效果。

2025-05-11 11:48:27 418

转载【Pytorch】梯度累积原理与实现

转载：【Pytorch】梯度累积原理与实现_pytorch 梯度累加-优快云博客

2025-05-10 23:07:03 31

原创生成的评价指标（结构一致性） DINO Score

对源图像 ISIS 和目标图像 ITIT，提取它们的 DINO 特征向量 fSfS 和 fTfT。一种基于自监督学习的视觉 Transformer 模型（如 ViT），通过对比学习提取图像的。：对像素级变化敏感，无法区分语义结构（如椅子形状）和无关细节（如纹理噪声）。（基于 DINO 模型的语义相似度分数）。捕捉语义级相似性（如“椅子”是否还是“椅子”）。，是判断编辑方法是否破坏原始结构的关键指标。结构与源图像几乎一致（DS > 阈值）。（避免颜色差异干扰结构评估）。，是论文的核心评估指标之一。

2025-05-09 11:51:26 338

原创 stable diffusion的attention-map：提取和可视化跨注意力图

项目：【可视化必备技能（1）】SD / Flux 文生图模型的 Attention Map 可视化-优快云博客参考：【可视化必备技能（1）】SD / Flux 文生图模型的 Attention Map 可视化-优快云博客

2025-05-08 23:31:53 262

原创 SDXL中调用 pipe.fuse_qkv_projections() 时（如 SD15 类的 init 中所示），会自动启用 FuseAttnProcessor2_0

的优化版本，通过融合操作提升计算效率。，库内部会自动尝试使用。中所示），会自动启用。如果您的环境使用的是。

2025-05-08 17:08:23 215

原创报错Detected that PyTorch and torchvision were compiled with different CUDA major versions. PyTorch ha

PyTorch 编译时使用的 CUDA 版本: 12.1。PyTorch 当前可用的 CUDA: True。PyTorch 版本: 2.1.0+cu121。CUDA 设备版本: (8, 6)

2025-05-08 09:29:41 421

原创 FastComposer论文问题与解决

使模型在训练中学会将文本token与图像区域精确对应。这一方法在多主体生成中至关重要，解决了传统扩散模型因注意力扩散导致的身份混合问题。，确保每个主体的特征仅影响图像中对应的区域。的实现是通过以下步骤完成的，核心思想是。在FastComposer中，跨注意力定位监督通过。

2025-05-06 23:31:50 239

原创 python代码控制块

【代码】python代码控制块。

2025-05-03 18:07:46 107

原创 diffusers的自注意力替换技术【修改AttentionProcessor 】

github源码：

2025-05-02 01:37:45 149

原创 DIT模型的详解

转载：https://zhuanlan.zhihu.com/p/687507895

2025-04-29 10:29:24 92

原创为什么要提出Null-text Inversion

像“预设一个虚拟目标（Null Prompt）的导弹”，先调整虚拟目标的参数，使得导弹飞行路径（噪声）既能无偏差抵达虚拟目标（重建原图），又能在需要时灵活转向真实目标（新文本编辑）。像“无目标的导弹”，反转噪声是无条件计算的，后续若想用文本引导（如“击中A点”），导弹（生成过程）会因缺乏初始目标而失控。扩散模型的生成过程受文本条件影响，而传统反转噪声是“无文本对齐”的。（即优化后的Null Prompt），而非完全无条件的噪声。通过优化Null Prompt的嵌入，，从而桥接反转与编辑的鸿沟。

2025-04-24 23:08:01 618

原创 Diffusion inversion后的latent code与标准的高斯随机噪音不一样

能隐约看出到最后一步还是会有“马”的形状。可视化latents_list如下;

2025-04-24 22:12:24 687

原创 Diffusion Model生成模型属性解耦评估指标

如果需要某篇论文的具体评估协议（如(3)的用户研究问卷设计），可提供详细示例！以下是这7篇论文中使用的。

2025-04-24 15:17:33 649

原创论文阅读Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via （2）

2025-04-23 11:14:57 249

原创论文阅读Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via Con

Att-Adapter 是一款用于多属性控制的插件式模块，专门为文本到图像（T2I）扩散模型设计。它允许用户对生成的图像进行更精细的控制，特别是在涉及多个属性（如眼睛宽度、鼻子宽度等）的连续控制时。Att-Adapter 结合了。

2025-04-22 23:36:59 655 1

原创论文阅读Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions

当前方法要么只能全局调整属性（如Concept Sliders），要么只能通过文本修改进行离散的局部调整（如Prompt-to-Prompt），无法同时满足连续性和主题特异性的需求。论文旨在解决文本到图像（T2I）扩散模型在生成图像时对个体主题（subject）及其属性（attributes）的精细控制不足的问题。，导致用户在生成图像时缺乏对特定主题属性的精细调节能力。现有方法无法同时实现。

2025-04-22 22:19:07 931 1

原创论文阅读HARIVO: Harnessing Text-to-Image Models for Video Generation

确保视频的所有帧在语义上保持一致（例如，同一视频中的不同帧应描述相同的主体和场景，避免物体突变或语义漂移）。：DC损失通过对比学习显式约束视频帧的语义一致性，是HARIVO模型实现时间连贯性的核心组件之一。

2025-04-21 07:52:22 1147 1

原创 Understanding the Latent Space of Diffusion Models through the Lens of Riemannian Geometry 代码

【代码】Understanding the Latent Space of Diffusion Models through the Lens of Riemannian Geometry 代码。

2025-04-20 21:04:49 187

原创论文阅读Discovering Interpretable Directions in the Semantic Latent Space of Diffusion Models

无监督：生成样本的h-space特征（PCA）或单张图像的h-space特征（Jacobian分析）。：用预训练分类器标注生成样本的属性（如微笑、眼镜），通过正负样本的h-space差值定义方向。：通过计算去噪器输出的Jacobian矩阵的奇异向量，发现图像特定的局部方向（如嘴部动作）。：对h-space中的瓶颈特征进行主成分分析，提取全局语义方向（如性别、姿态）。无监督：全局或局部语义方向（如PCA主成分、Jacobian奇异向量）。有监督：解耦的语义方向（如微笑方向、年龄方向）。）生成编辑后的图像。

2025-04-17 10:26:53 147 1

原创一文详解 Latent Diffusion官方源码

一文详解 Latent Diffusion官方源码_diagonalgaussiandistribution-优快云博客

2025-04-16 14:53:25 185

原创论文阅读PreciseControl: Enhancing Text-To-Image Diffusion Models with Fine-Grained Attribute Control

论文主要解决的问题是：现有的文本到图像（T2I）扩散模型在面部个性化生成和精细属性编辑方面存在局限性。

2025-04-11 20:02:21 1027 1

原创安装jupyter

清理并重新安装 Jupyter。

2025-04-10 11:01:58 135

原创论文阅读Diffusion Autoencoders: Toward a Meaningful and Decodable Representation

【代码】论文阅读Diffusion Autoencoders: Toward a Meaningful and Decodable Representation。

2025-04-04 21:33:05 258

原创球面线性插值（Slerp）

球面插值通常用于在球面上进行插值计算，常见的方法有球面线性插值（Slerp）和球面三角插值。下面介绍一种常用的球面插值方法——。

2025-03-24 10:08:48 428

原创插值interpolation

结果很奇怪，我觉得就是单纯的像素点在做插值，所以不存在两张图片平滑过渡。1. 单纯对两张图片先做插值。

2025-03-21 11:39:43 139

原创前向钩子forward hook的使用

【代码】前向钩子forward hook的使用。

2025-03-20 14:25:03 114

原创论文Rebuttal

参考：CVPR2024 Rebuttal 收获 – 码途拾遗

2025-03-13 14:23:25 140

原创 OSS阿里云盘传数据

1. 安装：OSS命令安装请参考。命令验证是否安装成功。

2025-03-12 03:20:37 236

原创 ViT-Small与Vit-Base区别

隐藏层维度：384维（相较于ViT-Base的768维）Transformer块数：6个（相较于ViT-Base的12个）输出层：1000维，通常用于分类任务这些差异使得ViT-Small在计算和内存需求上更为轻量，但也可能导致其在某些复杂任务中的表现略逊色于ViT-Base。

2025-03-09 15:25:02 551

竞争性自适应重加权算法（CARS）

竞争性自适应重加权算法（CARS）是一种在光谱分析、化学计量学和机器学习领域广泛应用的数据处理和变量选择方法。它基于自适应重加权采样（Adaptive Re-weighting Sampling, ARS）策略，旨在优化部分最小二乘（Partial Least Squares, PLS）模型的性能，特别是在高维数据集上。CARS的核心目标是找到最优的变量组合，这些组合能够最大化模型的预测能力和解释能力，同时减少过拟合的风险。在CARS算法中，首先会根据PLS模型的回归系数绝对值对所有变量进行排序。那些具有较大绝对值的回归系数通常意味着对应变量对模型预测目标变量有较大影响。然后，CARS会采用自适应的方式，逐步增加或减少变量的权重，通过交叉验证（Cross-Validation, CV）来评估模型性能，具体使用的是均方根交叉验证误差（Root Mean Square Error of Cross Validation, RMSECV）作为评估指标。

2024-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人