1.Darknet-53 模型结构
在论文中虽然有给网络的图,但我还是简单说一下。这个网络主要是由一系列的1x1和3x3的卷积层组成(每个卷积层后都会跟一个BN层和一个LeakyReLU)层,作者说因为网络中有53个convolutional layers,所以叫做Darknet-53(2 + 1*2 + 1 + 2*2 + 1 + 8*2 + 1 + 8*2 + 1 + 4*2 + 1 = 53 按照顺序数,最后的Connected是全连接层也算卷积层,一共53个)。下图就是Darknet-53的结构图,在右侧标注了一些信息方便理解。(卷积的strides默认为(1,1),padding默认为same,当strides为(2,2)时padding为valid)
其网络结构能分为三部分。
第一部分:图片的输入
第二部分:基础网络。作者原文使用的是 Darkjnet-53 without FC layer。
第三部分:yolo v3的三个分支。y1(13x13x255),y2(26x26x255),y3(52x52x255)。
Y1从上面结点获取。是最高层的,最抽象的特征