研三小学渣-优快云博客

在Stable Diffusion XL推理阶段，输入一个prompt，通过VAE和U-Net（Base）模型生成Latent特征，接着给这个Latent特征加一定的噪音，在此基础上，再使用Refiner模型进行去噪，以提升图像的整体质量与局部细节。与此同时，VAE的缩放系数也产生了变化。其主要思想是在加载数据时，将左上角的裁剪坐标通过傅里叶编码并嵌入U-Net（Base）模型中，并与原始图像尺寸一起作为额外的条件嵌入U-Net模型，从而在训练过程中让模型学习到对“图像裁剪”的认识。

2024-01-08 16:39:00 3144 1

原创 Stable Diffusion模型对比

Stable Diffusion V1系列是用基于GPT的CLIP模型，其模型参数量为123.65M； Stable Diffusion V2系列则换成了更新更好的OpenCLIP模型，其参数量为354.03M，相比SD V1的Text Encoder模型大了3倍左右 Stable Diffusion v1：它使用了LAION-2B (en)数据集以及laion-high-resolution和laion-improved-aesthetics的子集进行训练。laion-improved-aesthet

2024-01-08 16:37:08 2450 1

原创 DDPM总结

2024-01-08 16:34:35 396 1

原创 ATSS总结

1.对于每个输出的检测层，先计算每个anchor的中心点和目标的中心点的L2距离，选取K（mmdetection的topK是9）个anchor中心点离目标中心点最近的anchor为候选正样本（candidate positive samples）通过回归矩形框的2个角点偏置进行预测框位置和大小的预测，而FCOS是基于中心点预测四条边和中心点的距离进行预测框位置和大小的预测。铺设的点，左右两边类似表格上的数值表示最终确定的正负样本，通过计算候选框与gt的左，右，上，下，距离，找出。在特征图上每个点铺设多个。

2024-01-08 15:03:37 464 1

原创 MAE技术总结

MAE 方法很简单：mask 输入图像的随机 patch，并重建缺失的像素。它基于两个核心设计。首先，作者开发了一种非对称编码器-解码器结构，其中的编码器仅对可见的 patch 子集（不带 mask token）进行操作，而轻量级解码器则从潜在表示和 mask token 重建原始图像。其次，作者发现对输入图像的高比例（例如 75%）进行 mask 会产生一项困难且有意义的自监督任务。将这两种设计结合起来，能够高效地训练大型模型：加快训练速度（3 倍或更多）并提高精度。

2024-01-08 14:59:47 722 1

原创生成网络总结

生成网络总结。

2024-01-08 14:50:16 1824 1

原创论文精读之YOLOv1（You Only Look Once:Uniﬁed, Real-Time Object Detection）

模型在测试阶段，会将每个方框（不是网格）的score与该方框的类别概率（就是方框所在网格的类别概率）相乘，得到：方框的所属类别概率*IoU，这个分数既表示该类出现在方框中的概率，也表示预测方框与对象的匹配程度。其中，当方框内含有物体时，置信度损失采用上图中黑色框，当方框内不含有物体时，采用蓝色框的损失，这两者的分别是。因此，模型最后的输出是S × S × (B ∗ 5 + C)的张量，其中S × S是网格，B是锚框数量，5指的是xywh和score，C指的是类别数量。这里的类别与R-CNN系列不一样，

2023-08-09 00:24:59 88

原创论文精读之Faster R-CNN（Towards Real-Time Object Detection with Region Proposal Networks）

在第三步中，论文使用检测网络来初始化 RPN 训练，但会固定共享的卷积层（此时两个网络的Deep ConvNet是相同的），只微调 RPN 独有的卷积层。在实验中，论文研究了拥有5个可共享卷积层的Zeiler和Fergus模型(ZF)，以及拥有13个可共享卷积层的 Simonyan和Zisserman模型(VGG)。损失函数的设置与Fast R-CNN类似，需要注意的点是在之前的方法中，边界框回归是在从任意大小的区域池化的特征上进行的，并且回归权重是共享的。而在本文的方法中，采用了一种不同的方式。

2023-08-09 00:17:02 105

weixin_44733295的博客

原创代码随想录算法训练营第23天

原创代码随想录算法训练营第22天

原创代码随想录算法训练营第21天

原创代码随想录算法训练营第20天

原创代码随想录算法训练营第19天

原创代码随想录算法训练营第18天

原创代码随想录算法训练营第18天

原创 AIGC面经大全（持续更新）

原创 Diffuser库Stable_diffusion pipeline代码逐行解析（喂饭级别）

原创代码随想录算法训练营第17天

原创代码随想录算法训练营第15天

原创代码随想录算法训练营第13天

原创代码随想录算法训练营第11天

原创代码随想录算法训练营第10天

原创代码随想录算法训练营第8天

原创代码随想录算法训练营第7天

原创代码随想录算法训练营第6天

原创代码随想录算法训练营第4天

原创代码随想录算法训练营第3天|

原创代码随想录算法训练营第2天| 977.有序数组的平方、209.长度最小的子数组、59.螺旋矩阵II

原创代码随想录算法训练营第一天|704. 二分查找、27. 移除元素

原创 ControlNet总结

原创 CLIP Text Encoder

原创 Stable Diffusion XL总结

原创 Stable Diffusion模型对比

原创 DDPM总结

原创 ATSS总结

原创 MAE技术总结

原创生成网络总结

原创论文精读之YOLOv1（You Only Look Once:Uniﬁed, Real-Time Object Detection）

原创论文精读之Faster R-CNN（Towards Real-Time Object Detection with Region Proposal Networks）

原创论文精读之Fast R-CNN（Fast R-CNN）

原创论文精读之R-CNN（Region-based Convolutional Networks for Accurate Object Detection and Segmentation）

原创 Kaggle 2023 IMC图像匹配（69/494）---特征提取、图像匹配、三维重建

原创 Kaggle 2023HuBMAP 肾血管分割（19/1064 最优提交）---目标检测、实例分割、语义分割系列大总结

空空如也

空空如也