- 博客(44)
- 收藏
- 关注
原创 狗都能看懂的Classifier Guidance和Classifier-free Guidance详解
条件生成模型中的Guidance技术
2025-02-12 13:45:06
2108
1
原创 狗都能看懂的Vision Transformer with Deformable Attention的讲解和代码实现
真·狗都能看懂的Vision Transformer with Deformable Attention的原理讲解
2024-08-28 18:33:46
1534
1
原创 狗都能看懂的Reinforcement Learning简介和Policy-Based方法的讲解
小白也能看懂的强化学习简介+Policy-Based方法讲解-李宏毅老师课程笔记
2024-07-01 15:46:16
1310
原创 狗都能看懂的DDIM论文详解
DDIM可以看作是DDPM的更通用的形式,或者说DDIM是DDPM的一种子集,它不利用上一个step的信息就可以求出任意一个step的结果,可以做到跳步生成,从而实现采样的加速过程。由于DDIM的改进主要是在采样阶段,所以可以直接将DDPM训好的模型用DDIM采样,所以大家普遍都会认为DDIM是个采样算法,实际上它的推导的意义更加重大。当然这样的跳步生成也是有代价的,会有一些损失,从论文结果上看,DDIM可以用非常少量的精度损失作为代价,换取10倍至50倍的速度提升。这个对实际体验和落地有很大帮助。
2024-04-17 17:08:29
1860
2
原创 狗都能看懂的Deblurring via Stochastic Refinement论文详解
把Diffusion Model迁移到了去模糊任务上,而且提出了Predict and Refine的思路,有效降低了参数量和计算量,对扩散模型的落地和部署有比较大的意义。
2024-04-11 11:28:31
1418
原创 狗都能看懂的SR3(Image Super-Resolution via Iterative Refinement)论文详解
第一篇利用Diffusion Model做超分辨率重建的论文,非常新颖的思路
2024-04-10 11:06:09
6481
10
原创 狗都会用的余弦退火(CosineAnnealingLR)学习率调节算法讲解
Loss NaN?分类准确率不高?目标检测Map低?语义分割Miou低?快来试试CosineAnnealingLR吧
2022-11-09 11:41:35
36759
8
原创 狗都能看懂的变化检测网络Siam-NestedUNet讲解——解决工业检测的痛点
1、问题介绍工业检测如今深度学习的发展如火如荼,各类神奇的技术如人脸识别、换脸技术啥的,似乎什么问题都只需要Deep Learning一下就可以解决了。但这都是属于民用级别的技术,而真正想要在实际业务中落地,更多的是要渗透到工业中去。常见的工业检测有如下特点:良品多,次品少。如果一个工厂生产的大部分都是坏品,那这个工厂就离倒闭不远了。而恰恰深度学习则需要大量的坏品数据。产品换批次,产线更新。经常一换产品,之前优化过的模型就没办法再用了。就针对这两个问题,目前学术界较为成熟的目标检测、图像分割
2021-11-26 12:04:46
14617
58
原创 U-Net详解:为什么它适合做医学图像分割?(基于tf-Kersa复现代码)
1、U-netU-Net是一篇基本结构非常好的论文,主要是针对生物医学图片的分割。这种“对称”的结构也是神经网络中比较少见的,但如果把整个网络拉直,这样就和其他语义分割网络类似了。2、特点介绍首先,我们先来看一下U-Net的整体结构,可以看到,它并不是完全对称的。UNet原文中提到,输入图像是512x512大小的,那为什么图中第一层的宽高却是572呢?这样做有什么好处?Over-tile策略Unet使用一种称为overlap-tile的的策略,使得任意大小输入的图片都可以获得一个无缝分割。ove
2021-08-15 12:12:05
4776
原创 SegNet——论文笔记
1、什么是语义分割(semantic segmentation)?图像语义分割,简而言之就是对一张图片上的所有像素点进行分类,将所有属于同一类的物体标记为同一像素点。SegNet基于FCN,修改VGG-16网络得到的语义分割网络。2、SegNet(A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation)SegNet 有一个编码器网络和一个相应的解码器网络,然后是最终的逐像素分类层。编码器在编码器处,执
2021-07-04 11:23:07
2482
原创 FCN——语义分割的开山鼻祖(基于tf-Kersa复现代码)
1、什么是语义分割(semantic segmentation)?图像语义分割,简而言之就是对一张图片上的所有像素点进行分类,将所有属于同一类的物体标记为同一像素点。而今天要来介绍的则是第一个用卷积神经网络来做语义分割的方法——FCN。2、FCN(Fully Convolutional Networks for Semantic Segmentation)常见的卷积神经网络在多次卷积之后会接上若几个全连接层,将卷积和下采样产生的feature map映射成为一个固定长度的特征向量。一般的CNN结构
2021-06-27 11:21:06
2968
2
原创 YOLOv3详解:从零开始搭建YOLOv3网络
因为YOLO系列有不同版本,分为v1,v2,v3,v4四个版本,从论文上分析需要从头开始,本文从实战入手,分析YOLOv3的原理。代码地址:https://github.com/Runist/YOLOv31、YOLOv3网络结构骨干网络(backbone)——特征提取YOLOv2的backbone采用的是DarkNet19 ,而YOLOv3采用的是DarkNet53。DarkNet53中无池化层,全连接层,特征图的缩小是通过增加卷积核的步长实现的。DarkNet53的每一个卷积部分使用了特有
2021-02-15 14:31:02
13581
1
原创 EfficientNet解读:神经网络的复合缩放方法(基于tf-Kersa复现代码)
论文:https://arxiv.org/pdf/1905.11946.pdf代码:https://github.com/qubvel/efficientnet1、介绍EfficientNet这篇论文在发布之初就引起了广泛关注,原因是因为它展示出的结果将现有的网络全部秒杀了,并且在准确率高出一截的情况下,参数量还少,在ImageNet上屠榜。看到这让人叹为观止的结果,很多人会认为这篇论文应该是提出了全新的结构,才能做到又快又好。其实并不是这样,作者独辟蹊径,从一个之前完全没有人注意的角度:量化三个
2021-02-10 21:04:42
3551
原创 DropBlock: 卷积层的正则化方法及复现代码
论文:https://arxiv.org/pdf/1810.12890.pdf1、什么是Dropout?我相信各位一定了解过Dropout,所谓Dropout就是提高神经网络泛化性一种方法,可以有效减轻过拟合。为什么它有效呢?从下图分析:一个标准的神经网络如图(a)所示,由于训练数据(假设为人脸数据)的局限性,使得神经网络很依赖于某一个神经元,而其他神经元相当于没有起作用,网络每次都只通过眼睛来判断是不是个人。如果此时直接拿一个全新的测试数据集让这个网络进行识别,很可能因为图片中眼睛被遮挡而得出错误
2021-02-09 12:27:13
3031
2
原创 DenseNet详解及Keras复现代码
代码地址:https://github.com/liuzhuang13/DenseNet论文地址:https://arxiv.org/pdf/1608.06993.pdf1、DenseNet随着卷积神经网络变得越来越深,一个新的问题出现了:当输入或梯度信息在经过很多层的传递之后,在到达网络的最后(或开始)可能会消失或者“被冲刷掉”(wash out)。DenseNet(Dense Convolutional Network)主要还是和ResNet及Inception网络做对比,思想上有借鉴,但却是不一
2021-02-08 12:10:29
3531
6
原创 SENet详解及Keras复现代码
SENet详解论文地址:https://arxiv.org/pdf/1709.01507.pdf代码地址:https://github.com/hujie-frank/SENet1、通道间的特征关系近些年来,卷积神经网络在很多领域上都取得了巨大的突破。而卷积核作为卷积神经网络的核心,通常被看做是在局部感受野上,将空间上(spatial)的信息和特征维度上(channel-wise)的信息进行聚合的信息聚合体。卷积神经网络由一系列卷积层、非线性层和下采样层构成,这样它们能够从全局感受野上去捕获图像的特
2021-02-02 10:18:16
8164
16
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人