
cv
文章平均质量分 91
LS_learner
业精于勤,荒于嬉;
行成于思,毁于随。
展开
-
训练集准确率很高,验证集准确率低问题
训练集在训练过程中,loss稳步下降,准确率上升,最后能达到97%验证集准确率没有升高,一直维持在50%左右(二分类问题,随机概率)测试集准确率57%在网上搜索可能打的原因:1.learning rate太小,陷入局部最优2.训练集和测试集数据没有规律3.数据噪声太大4.数据量太小(总共1440个样本,80%为训练集)5.训练集和测试集数据分布不同:如训练集正样本太少(训练集和测试集每次运行随机选择,故排除)6.数据集存在问题,如标注有问题(采用公开数据集,排除)7.学习率过大8.模型原创 2020-10-08 17:01:57 · 109516 阅读 · 138 评论 -
pytorch中反卷积torch.nn.ConvTranspose2d()的使用
卷积:class torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, groups=1, bias=True)蓝色为输入,蓝色上的阴影为卷积核(kernel),绿色为输出,蓝色边缘的白色框为padding反卷积:class torch.nn.ConvTranspose2d(in_channels, out_channels, kernel_size, stride=1, padding=0, o原创 2020-10-08 16:57:17 · 5177 阅读 · 13 评论 -
GAN原理简单讲解即代码实现
GAN的基本原理其实非常简单,这里以生成图片为例进行说明。假设我们有两个网络,G(Generator)和D(Discriminator)。正如它的名字所暗示的那样,它们的功能分别是:G是一个生成图片的网络,它接收一个随机的噪声z,通过这个噪声生成图片,记做G(z)。D是一个判别网络,判别一张图片是不是“真实的”。它的输入参数是x,x代表一张图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。在训练过程中,生成网络G的目标就是尽量生成真实原创 2020-08-30 22:36:57 · 5506 阅读 · 0 评论 -
CRNN序列图像识别过程(二)
上图中纵坐标是可能出现的字符,横坐标是输出的序列,上图表示:输出结果要求为zoo时,在网络输出的序列长度为9的前提下,网络可以输出的序列情况。从图中可以看出,第一个出现的字符为空格或者z,如果第一个字符为空格,那么第二个出现的字符可以为空格或者z,箭头表示下一个可以出现的字符情况,比如,网络输出的序列可以为:空格空格空格空格空格zo空格o或者zz空格o空格o空格空格空格最终经过转录,可以得到zoo在此说明一下,在网络中,每一个序列字符的输出都是有概率的,比如,在 空格空格空格空格空格zo空格o这条输.原创 2020-08-20 22:57:02 · 542 阅读 · 0 评论 -
BatchNorm2d原理、作用及其pytorch中BatchNorm2d函数的参数讲解
BN原理、作用:函数参数讲解:BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)1.num_features:一般输入参数为batch_sizenum_featuresheight*width,即为其中特征的数量,即为输入BN层的通道数;2.eps:分母中添加的一个值,目的是为了计算的稳定性,默认为:1e-5,避免分母为0;3.momentum:一个用于运行过程中均值和方差的一个估原创 2020-08-16 17:05:00 · 74504 阅读 · 18 评论 -
CRNN序列图像识别过程(一)
CRNN是一种卷积循环神经网络结构,用于解决基于图像的序列识别问题,特别是场景文字识别问题。文章认为文字识别是对序列的预测方法,所以采用了对序列预测的RNN网络。通过CNN将图片的特征提取出来后采用RNN对序列进行预测,最后通过一个CTC的翻译层得到最终结果。 说白了就是CNN+RNN+CTC的结构。CRNN 全称为 Convolutional Recurrent Neural Network,主要用于端到端地对不定长的文本序列进行识别,不用先对单个文字进行切割,而是将文本识别转化为时序依赖的序列学习问原创 2020-08-16 13:47:27 · 4499 阅读 · 0 评论 -
如何解析模型代码的调用关系——以“ResNet网络模型的代码运行过程解析”为例
ResNet网络模型的代码运行解析过程本博客以ResNet50为例子,来解析代码运行的过程与函数解析:源码:如下之前一直为代码的复杂调用关系而感到头疼,看完之后虽然在脑子里能回想起来代码的流程,但是过了几天之后,这些典型的深度学习网络模型的代码又就忘记了,为了解决这个问题,我使用思维导图,来整理模型代码的整个流程,得到了很不错的效果,而且整个模型的函数调用也是一目了然!!!下次再看,也能很快想起来。我是用的是鱼骨思维导图:效果如下:与中间一跟鱼骨相连的骨刺是最先被运行的代码,然后在这个代码中如原创 2020-07-12 16:41:25 · 662 阅读 · 2 评论 -
目标检测——Sliding Window、RegionProposal、Selective Search、RPN
Sliding Window滑窗法有在传统中的方法法和在深度学习中的方法,下面讲的是在深度学习中的方法。滑窗法有2个过程:依次滑动:每次滑动一个像素点,每个像素都会对应一个框。每次滑动后,都把框框住的内容当作一个图像送入目标检测网络中(如VGG网络,或者ResNet网络)进行检测。检测结果对应的位置,就是框的位置,每次滑动后,位置就确定了。多尺度滑动:那么每次框的大小如何确定呢?这就是多尺度进行滑动了。就是使用小的框,把整张图滑动一遍之后,再使用大一点的框,再进行滑动一遍。然后再选择更大的框原创 2020-06-08 22:42:46 · 1601 阅读 · 2 评论 -
YOLOv3算法原理,源码精讲以及YOLOv4要点(更新阶段)
YOLOv3算法原理,源码精讲以及YOLOv4要点1、YOLOv3算法原理2、YOLOv3源码精讲-讲透Anchor机制3、YOLOv3源码精讲-要点深入理解4、YOLOv4要点目标检测:不仅要给出检测出来的内容,还要给出内容的位置。在开始之前,首先理解一下:Bounding Box:从左到右分别为:1、轴对齐的Bounding Box(简写为AABB),该框有两种表示方式(x1,y1,x2,y2)—左上右下点的坐标或者(x,y,h,w)—中心点的坐标和高宽值,即用四维的向量来表示;原创 2020-06-08 21:02:56 · 1233 阅读 · 0 评论 -
YOLO_small.ckpt & yolo_weights.h5 & ......下载
网盘下载:YOLO_small.ckpt链接:https://pan.baidu.com/s/15pxR29zsiEpRnQ4y3sjLag提取码:pf4jyolo_weights.h5链接:https://pan.baidu.com/s/10DiVRyul_n8ZHX2NEm5uBw提取码:gqjb原创 2020-03-30 19:14:18 · 1663 阅读 · 0 评论