计算机视觉常用网络结构
计算机视觉常用网络结构
libo-coder
DeepLearning / Computer Vision / OCR
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
『神经网络』CapsNet
一、卷积网络的不足之处卷积神经网络虽然表现的很优异,但是针对于旋转或元素平移等变换后的图片,却无法做到准确提取特征。比如,对下图中字母R进行旋转、加边框,CNN会错误地认为下图的三个R是不同的字母。如下图,有两张图片,它们都是由一个椭圆的轮廓、眼睛、鼻子和嘴巴组成。CNN可以轻而易举地检测到两张图片上的这些特征,并且认为它检测到的是脸。但显然右边图片的眼睛和嘴巴位置改变了,但是CNN仍然识别为一张正常的人脸,它没有处理好子元素之间的位置关系。这就引出了位姿的概念。位姿结合了对象之间的相对关系,在原创 2020-12-11 13:46:53 · 866 阅读 · 0 评论 -
『神经网络』UNet++
一、网络结构UNet++ 的目标是通过在编码器和解码器之间加入 Dense block 和 卷积层 来提高分割精度。UNet++ 在原始的 U-Net 上加了3个东西:重新设计的跳跃路径(显示为绿色):以弥补编码器和解码器子路径之间的语义差别密集跳跃连接(显示为蓝色)深度监督(显示为红色)1. 重新设计的跳跃路径在 UNet++ 中,增加了重新设计的跳跃路径(绿色显示),以弥补编码器和解码器子路径之间的语义差别。这些卷积层的目的是减少编码器和解码器子网络的特征映射之间的语义差距。因原创 2020-12-11 11:27:01 · 3209 阅读 · 0 评论 -
『神经网络』UNet
一、Unet 网络结构U-Net 如下图所示,是一个 encoder-decoder 结构,左边一半的 encoder 包括若干卷积,池化,把图像进行下采样,右边的 decoder 进行上采样,恢复到原图的形状,给出每个像素的预测。编码器有四个子模块,每个子模块包含两个卷积层,每个子模块之后有一个通过 maxpool 实现的下采样层。输入图像的分辨率是 572x572, 第 1-5 个模块的分辨率分别是 572x572, 284x284, 140x140, 68x68 和 32x32。由于卷积使用的是原创 2020-12-11 11:24:16 · 3013 阅读 · 0 评论
分享