- 博客(35)
- 收藏
- 关注
原创 Diffuser库Stable_diffusion pipeline代码逐行解析(喂饭级别)
Diffuser库Stable diffusion pipeline代码全解读
2024-01-30 10:29:02
3878
原创 代码随想录算法训练营第2天| 977.有序数组的平方、209.长度最小的子数组、59.螺旋矩阵II
209.长度最小的子数组。977.有序数组的平方。
2024-01-11 13:28:53
391
1
原创 Stable Diffusion XL总结
在Stable Diffusion XL推理阶段,输入一个prompt,通过VAE和U-Net(Base)模型生成Latent特征,接着给这个Latent特征加一定的噪音,在此基础上,再使用Refiner模型进行去噪,以提升图像的整体质量与局部细节。与此同时,VAE的缩放系数也产生了变化。其主要思想是在加载数据时,将左上角的裁剪坐标通过傅里叶编码并嵌入U-Net(Base)模型中,并与原始图像尺寸一起作为额外的条件嵌入U-Net模型,从而在训练过程中让模型学习到对“图像裁剪”的认识。
2024-01-08 16:39:00
3144
1
原创 Stable Diffusion模型对比
Stable Diffusion V1系列是用基于GPT的CLIP模型,其模型参数量为123.65M; Stable Diffusion V2系列则换成了更新更好的OpenCLIP模型,其参数量为354.03M,相比SD V1的Text Encoder模型大了3倍左右 Stable Diffusion v1:它使用了LAION-2B (en)数据集以及laion-high-resolution和laion-improved-aesthetics的子集进行训练。laion-improved-aesthet
2024-01-08 16:37:08
2450
1
原创 ATSS总结
1.对于每个输出的检测层,先计算每个anchor的中心点和目标的中心点的L2距离,选取K(mmdetection的topK是9)个anchor中心点离目标中心点最近的anchor为候选正样本(candidate positive samples)通过回归矩形框的2个角点偏置进行预测框位置和大小的预测,而FCOS是基于中心点预测四条边和中心点的距离进行预测框位置和大小的预测。铺设的点,左右两边类似表格上的数值表示最终确定的正负样本,通过计算候选框与gt的左,右,上,下,距离,找出。在特征图上每个点铺设多个。
2024-01-08 15:03:37
464
1
原创 MAE技术总结
MAE 方法很简单:mask 输入图像的随机 patch,并重建缺失的像素。它基于两个核心设计。首先,作者开发了一种非对称编码器-解码器结构,其中的编码器仅对可见的 patch 子集(不带 mask token)进行操作,而轻量级解码器则从潜在表示和 mask token 重建原始图像。其次,作者发现对输入图像的高比例(例如 75%)进行 mask 会产生一项困难且有意义的自监督任务。将这两种设计结合起来,能够高效地训练大型模型:加快训练速度(3 倍或更多)并提高精度。
2024-01-08 14:59:47
722
1
原创 论文精读之YOLOv1(You Only Look Once:Unified, Real-Time Object Detection)
模型在测试阶段,会将每个方框(不是网格)的score与该方框的类别概率(就是方框所在网格的类别概率)相乘,得到:方框的所属类别概率*IoU,这个分数既表示该类出现在方框中的概率,也表示预测方框与对象的匹配程度。其中,当方框内含有物体时,置信度损失采用上图中黑色框,当方框内不含有物体时,采用蓝色框的损失,这两者的分别是。因此,模型最后的输出是S × S × (B ∗ 5 + C)的张量,其中S × S是网格,B是锚框数量,5指的是xywh和score,C指的是类别数量。这里的类别与R-CNN系列不一样,
2023-08-09 00:24:59
88
原创 论文精读之Faster R-CNN(Towards Real-Time Object Detection with Region Proposal Networks)
在第三步中,论文使用检测网络来初始化 RPN 训练,但会固定共享的卷积层(此时两个网络的Deep ConvNet是相同的),只微调 RPN 独有的卷积层。在实验中,论文研究了拥有5个可共享卷积层的Zeiler和Fergus模型(ZF),以及拥有13个可共享卷积层的 Simonyan和Zisserman模型(VGG)。损失函数的设置与Fast R-CNN类似,需要注意的点是在之前的方法中,边界框回归是在从任意大小的区域池化的特征上进行的,并且回归权重是共享的。而在本文的方法中,采用了一种不同的方式。
2023-08-09 00:17:02
105
原创 论文精读之Fast R-CNN(Fast R-CNN)
论文提出一种新的算法结构Fast R-CNN,首先,将图片输入DeepCNN网络中得到特征图,根据映射关系可以找到原图上每个候选区域在特征图上的特征矩阵,然后将特征矩阵通过RoI Pooling层统一缩放到指定尺寸(论文中采用7x7),然后经过两个全连接层得到特征向量,在这之后并联两个全连接层层,左边的全连接层用于目标类别预测(分类器),右边全连接层用于边界框回归参数的预测(回归器)。首先,最后一个最大池化层被 RoI 池化层取代, 其次,将网络的最后一个全连接层替换为前面所述的(一个全连接层和。
2023-08-09 00:15:52
361
原创 论文精读之R-CNN(Region-based Convolutional Networks for Accurate Object Detection and Segmentation)
在测试时,文章的方法会为输入图像生成约 2000 个与类别无关的区域,使用 CNN 从每个区域中提取固定长度的特征向量,然后使用特定类别的线性 SVM 对每个区域进行分类。而滑动窗口通常用于受限对象类别,并且由于图像分辨率的影响,在卷积神经网络种感受野会很大,这使得在滑动窗口中进行精确定位非常困难。本文的第二个主要贡献是表明在数据稀缺的情况下,在大型辅助数据集 (ILSVRC)上进行有监督的预训练,然后在小型数据集(PASCAL)上进行特定领域的微调,是学习高容量CNN 的有效范例。
2023-08-02 21:24:32
323
原创 Kaggle 2023 IMC图像匹配 (69/494)---特征提取、图像匹配、三维重建
比赛方提供三种类型的数据集,包括“遗迹”,“物体”,“建筑”,分为训练集和测试集。每种类型的数据集包含一系列用相机拍摄的不同角度方位的对于同一个目标的多视图照片。比赛要求参赛者根据多视图照片重建三维场景,参赛者需提供每张照片在该场景下的旋转矩阵和平移向量.世界坐标下每个物体都有固定的坐标,相机内参数主要是相机焦距,比赛的任务是根据图像的点坐标计算出图像的相机位姿R和t。首先对图像进行特征点提取,对特征点进行匹配,得到匹配的特征点进行捆绑调整,稀疏重建。
2023-08-02 21:22:03
704
原创 Kaggle 2023HuBMAP 肾血管分割 (19/1064 最优提交)---目标检测、实例分割、语义分割系列大总结
最终提交结果因为加了膨胀操作导致巨大的shake,整个私人排行榜都发生颠倒。本文模型的最佳私人得分能到前20名,但最终的提交只有366名。虽然经过三个月的学习和努力,最后结果不如人意,但当中领会到的经验与方法使成绩体现不出的。本文是我对整个比赛过程中的所有经历和领悟的总结归纳。比赛数据包括从五个全幻灯片图像 (WSI) 中提取的图像,这些图像分为两个数据集。数据集 1 中的切片具有经过专家审核的注记。数据集 2 包含来自这些相同 WSI 的其余切片,并包含未经专家审查的稀疏注释。所有测试集。
2023-08-02 21:13:31
434
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人