- 博客(6)
- 收藏
- 关注
原创 Object-aware Gaze Target Detection (ICCV 2023)
输入为图像特征图,经过 Transformer 编码器进行上下文融合,解码器是N个对象查询,先进行自注意力,再与编码器输出的矩阵做交叉注意力,得到 N 个对象查询 token,再接两个MLP头,一个用于回归框,一个用于预测类别。,生成得分矩阵 Σ(像素级得分矩阵),再把每个物体的中心代进去,得到对象级 Σ ,该矩阵记录了每个 head 对不同对象的关注强度。作为查询(Q),其他对象的特征作为键(K)和值(V),计算出各物体的注意力分布。得分矩阵 Σ 计算,在视野圆锥内计算每个像素的。
2025-10-29 20:18:53
243
原创 《Guided Score Identity Distillation for Data-Free One-Step Text-to-Image Generation》
而在更新生成器时,使用不如 k1 的 k2 ,k3 去降低这个标准,但是稍增强了 k4(因为老师模型是黄金标准,虽然助教的标准有所降低,但这个黄金标准使其不会偏离文本)。在训练假分数网络时,加大k1CFG,使得假分数网络更注重文本特征,就像 “学会了挑刺”。1. SiD(Score Identity Distillation,分数恒等式蒸馏)策略: ps:k1负责更新假分数网络 k2,k3,k4 用来更新生成器。已有蒸馏方法:要么依赖真实数据,要么效果差。(2)加噪得到xt,框架:(1)学生生成器,
2025-09-25 11:59:32
133
原创 论文:基于潜在扩散模型的高分辨率图像合成
一,感知压缩思路:训练自编码器,如VQGAN,将高维图像数据压缩到低维潜在空间,保留语义信息,丢弃高频细节如将图像从像素空间(256×256×3)压缩到低维潜在空间(如32×32×4)在潜在空间中训练LDM,仅需处理低维数据。ps:简单来讲,就是用很少的字来描述最突出的特征。自编码器,压缩的过程:卷积,池化将图片压缩到低维,这个低维向量称为“潜在向量”。它存储的不是像素,而是描述这张脸的抽象概念,例如:这个100维的向量就是网络对这张人脸的“理解”。这些数值极为抽象。通过。
2025-09-14 13:26:15
923
原创 前置知识补充
时,根据均方误差计算梯度(∂Loss/∂w)。如果梯度是负的,说明增大w会减小loss。负的越多,说明w对误差的影响越大。特征探测器去扫描图片,一系列的卷积,池化(一般是maxpool,省略不重要的特征)反向传播:计算损失对于每个参数的梯度(即,每个参数对总误差应负多少责任)。我们用一个损失函数来量化这个“离谱”的程度。优化算法:根据梯度信息,更新参数以减少误差。损失函数:衡量预测结果与真实值之间的差距。前向传播:计算当前参数的预测结果。
2025-09-13 19:39:46
119
原创 扩散模型的加噪和去噪
x_t = √(1 - β_t) * x_(t-1) + √(β_t) * ε , ε是随机生成的矩阵,服从正态分布。那么 Z=aX+bY∼N(aμX+bμY,a2σX2+b2σY2)Z=aX+bY∼N(aμX+bμY,a2σX2+b2σY2)如果 X∼N(μX,σX2)X∼N(μX,σX2) 和 Y∼N(μY,σY2)Y∼N(μY,σY2) 是。ps:时间步 t 越大,√(β_t) 越大,图片噪声强度越大。其实,神经网络的本质就是预测 εt ,预测这个噪声。
2025-09-13 17:24:12
684
原创 创建python环境
1.打开anaconda powershell prompt(Miniconda),输入conda install jupyter notebook,下载。(3)在base环境中,输入jupyter notebook,启动jupyter,可以选择first_env环境了。创建的这个my_first_env环境,在D:\MiniConda\envs\my_first_env 这里。查看环境变量,然后点击添加,D:\Miniconda,D:\Miniconda\scripts。而conda那种方法全卸载了)
2025-04-27 23:14:15
2338
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅