白日梦大王-优快云博客

原创 Object-aware Gaze Target Detection (ICCV 2023)

输入为图像特征图，经过 Transformer 编码器进行上下文融合，解码器是N个对象查询，先进行自注意力，再与编码器输出的矩阵做交叉注意力，得到 N 个对象查询 token，再接两个MLP头，一个用于回归框，一个用于预测类别。，生成得分矩阵 Σ（像素级得分矩阵），再把每个物体的中心代进去，得到对象级 Σ ，该矩阵记录了每个 head 对不同对象的关注强度。作为查询（Q），其他对象的特征作为键（K）和值（V），计算出各物体的注意力分布。得分矩阵 Σ 计算，在视野圆锥内计算每个像素的。

2025-10-29 20:18:53 243

原创《Guided Score Identity Distillation for Data-Free One-Step Text-to-Image Generation》

而在更新生成器时，使用不如 k1 的 k2 ，k3 去降低这个标准，但是稍增强了 k4（因为老师模型是黄金标准，虽然助教的标准有所降低，但这个黄金标准使其不会偏离文本）。在训练假分数网络时，加大k1CFG，使得假分数网络更注重文本特征，就像 “学会了挑刺”。1. SiD（Score Identity Distillation，分数恒等式蒸馏）策略： ps：k1负责更新假分数网络 k2，k3，k4 用来更新生成器。已有蒸馏方法：要么依赖真实数据，要么效果差。（2）加噪得到xt，框架：（1）学生生成器，

2025-09-25 11:59:32 133

原创论文：基于潜在扩散模型的高分辨率图像合成

一，感知压缩思路：训练自编码器，如VQGAN，将高维图像数据压缩到低维潜在空间，保留语义信息，丢弃高频细节如将图像从像素空间（256×256×3）压缩到低维潜在空间（如32×32×4）在潜在空间中训练LDM，仅需处理低维数据。ps：简单来讲，就是用很少的字来描述最突出的特征。自编码器，压缩的过程：卷积，池化将图片压缩到低维，这个低维向量称为“潜在向量”。它存储的不是像素，而是描述这张脸的抽象概念，例如：这个100维的向量就是网络对这张人脸的“理解”。这些数值极为抽象。通过。

2025-09-14 13:26:15 924

原创前置知识补充

时，根据均方误差计算梯度（∂Loss/∂w）。如果梯度是负的，说明增大w会减小loss。负的越多，说明w对误差的影响越大。特征探测器去扫描图片，一系列的卷积，池化（一般是maxpool，省略不重要的特征）反向传播：计算损失对于每个参数的梯度（即，每个参数对总误差应负多少责任）。我们用一个损失函数来量化这个“离谱”的程度。优化算法：根据梯度信息，更新参数以减少误差。损失函数：衡量预测结果与真实值之间的差距。前向传播：计算当前参数的预测结果。

2025-09-13 19:39:46 119

原创扩散模型的加噪和去噪

x_t = √(1 - β_t) * x_(t-1) + √(β_t) * ε ， ε是随机生成的矩阵，服从正态分布。那么 Z=aX+bY∼N(aμX+bμY,a2σX2+b2σY2)Z=aX+bY∼N(aμX+bμY,a2σX2+b2σY2)如果 X∼N(μX,σX2)X∼N(μX,σX2) 和 Y∼N(μY,σY2)Y∼N(μY,σY2) 是。ps：时间步 t 越大，√(β_t) 越大，图片噪声强度越大。其实，神经网络的本质就是预测 εt ，预测这个噪声。

2025-09-13 17:24:12 686

原创创建python环境

1.打开anaconda powershell prompt（Miniconda），输入conda install jupyter notebook，下载。（3）在base环境中，输入jupyter notebook，启动jupyter，可以选择first_env环境了。创建的这个my_first_env环境，在D:\MiniConda\envs\my_first_env 这里。查看环境变量，然后点击添加，D:\Miniconda，D:\Miniconda\scripts。而conda那种方法全卸载了）

2025-04-27 23:14:15 2341 1

hc011008的博客

原创 Object-aware Gaze Target Detection (ICCV 2023)

原创《Guided Score Identity Distillation for Data-Free One-Step Text-to-Image Generation》

原创论文：基于潜在扩散模型的高分辨率图像合成

原创前置知识补充

原创扩散模型的加噪和去噪

原创创建python环境

空空如也

空空如也

原创 Object-aware Gaze Target Detection (ICCV 2023)

原创 《Guided Score Identity Distillation for Data-Free One-Step Text-to-Image Generation》

原创 论文：基于潜在扩散模型的高分辨率图像合成

原创 前置知识补充

原创 扩散模型的加噪和去噪

原创 创建python环境

空空如也

空空如也

原创《Guided Score Identity Distillation for Data-Free One-Step Text-to-Image Generation》

原创论文：基于潜在扩散模型的高分辨率图像合成

原创前置知识补充

原创扩散模型的加噪和去噪

原创创建python环境