
计算机视觉
计算机视觉相关的深度学习算法
TWSF
敏而好学,不耻下问
展开
-
FCOS (ICCV2019)
总结:1. 相当于换了一种形式的anchor, 多层预测, 每层预测指定的尺寸, 然后使用si(也没有讲这个是怎么来的)来平衡尺寸基数.2. 主要困难点在于目标之间overlap的处理 和 尺寸不变形问题, 可以说两者都是通过FPN处理的,前者假设多数overlap的目标都是尺寸差距较大的, 后者通过每层限定回归范围以及设置si来平衡.3. ICCV2019的, 整篇读下来很顺畅,...原创 2019-10-13 16:42:45 · 476 阅读 · 0 评论 -
FCOS (ICCV2019)
总结:1. 相当于换了一种形式的anchor, 多层预测, 每层预测指定的尺寸, 然后使用si(也没有讲这个是怎么来的)来平衡尺寸基数.2. 主要困难点在于目标之间overlap的处理 和 尺寸不变形问题, 可以说两者都是通过FPN处理的,前者假设多数overlap的目标都是尺寸差距较大的, 后者通过每层限定回归范围以及设置si来平衡.3. ICCV2019的, 整篇读下来很顺畅,...原创 2019-10-13 16:41:57 · 473 阅读 · 0 评论 -
SNIPER: Efficient Multi-Scale Training
conclusion:主要针对小目标检测, 没有提出新的检测算法, 仅仅是对输入图像的一个采样策略.主要思想是尽量让输入训练的一张图像里面的各个目标的尺度在一个范围内, 不要相差太大从而提升性能, 并且不要让那些无关的背景区域也过多的参与训练从而提高效率主要方法是图像金字塔, 定义chip, 就像是滑动窗口, 然后选出一些目标多的窗口chip(对于图像金字塔的每个尺度计算的目标也限定在...原创 2019-06-27 19:47:46 · 348 阅读 · 0 评论 -
YOLO-V2
1 introduction通过已有的分类数据扩大当前检测系统的范围, 使用目标分类层的分层视图, 将不同的数据集组合在一起.联合训练算法: 分类与检测相结合训练 , 使用标记好的检测数据实现目标的精确定位,利用分类数据提高其识别范围及稳健性.代码:http://pjreddie.com/yolo9000/2 BetterBatch Normalization...原创 2019-05-13 16:55:13 · 289 阅读 · 0 评论 -
YOLO-V1
1 introduction改善目标检测作为单一回归问题, 直接在整个图像上检测目标的边界框和类别概率相比于其他架构的优点:1: 很快2: 在整个图像上预测, 虽然错误率比Fast R-CNN高, 但是Fast R-CNN在Proposal上预测, 由于缺乏上下文信息, 导致背景的预测错误率是YOLO的两倍.3: YOLO学习对象的一般化表示, 具有通用性, 对于新的domai...原创 2019-05-13 16:26:44 · 290 阅读 · 0 评论 -
MASK R-CNN
https://github.com/facebookresearch/Detectron.1. 素质四连要解决什么问题? 之前的研究使得物体检测、图像分割任务的性能有了很大的提高,但对物体分割任务(instance segmentation)没有很大提升。 建立一套基于物体分隔的模型架构。 用了什么方法解决? 在Faster R-CNN添加了预测mask的部分(与预测bb...原创 2019-05-06 15:10:12 · 291 阅读 · 0 评论 -
FPN: Feature Pyramid Networks for Object Detection
https://github.com/kaiminghe/deep-residual-networkshttps://github.com/rbgirshick/py-faster-rcnnhttps://github.com/caffe2/caffe2https://github.com/facebookresearch/deepmask1 Introduction...原创 2019-04-25 17:03:58 · 417 阅读 · 0 评论 -
RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation
conde: https://github.com/guosheng/refinenet1 Introduction主要贡献1 多路径细化网络, 利用多层的抽象特征对于高分辨率语义分割, 网络运用低分辨率语义特征和描绘细节的底层特征去回归方法产生高分辨率语义特征图.2 网络可以进行端到端的训练, 这对于性能非常重要, 网络中使用残量连接 和 恒等映射, 因此梯度可以直接通过短...原创 2019-04-23 20:33:14 · 527 阅读 · 0 评论 -
DenseNet: Densely connected convolutional network
贡献和总结1. 使用dense block(3到4个左右), 每个dense里面的每一层和其余任意层都连接, 前面的作为输入, 输出到之后所有的.2. 1X1卷积可以用来改变每一层的输入层数1 introduction设计灵感来自DCNN中信息在长距离传输中可能会丢失.dense block结构是每一层都很其余的层连接: 当前层的输入串联之前所有层的输出特征图, ...原创 2019-04-22 23:44:34 · 419 阅读 · 0 评论 -
torch和pytorch安装
torch安装第一步:获取安装LuauJIT(C语言编写的Lua的解释器)和Torch所必需的依赖包。git clone https://github.com/torch/distro.git ~/torch --recursive第二步:刚才默认将依赖包下载在当前路径下的torch文件夹,进入torch文件夹,打开并执行install-deps中的命令。cd ~/t...原创 2019-04-22 21:21:22 · 6117 阅读 · 0 评论 -
Predicting Depth,Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Archite
Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture主要贡献:使用multi scale训练, 每一阶段的输入都是累加上一阶段的输出和原图像的一层卷积下采样.第一阶段和第二阶段联合训练(感觉就是可以把第一阶段和第二阶段联合在一起...原创 2019-04-13 22:27:10 · 2157 阅读 · 0 评论 -
Faster R-CNN
AbstractFast R-CNN主要是基于VGG-16而训练的, 训练和测试比R-CNN和SPPnet要快很多.1. Introduction基于目标检测问题的复杂性, 当前模型训练都很慢而且也不优美. 而造成复杂性的原因主要有两点:一是需要处理大量的候选目标区域(也就是proposals). 二是这些候选区域仅仅提供一个粗略的定位, 需要通过改善获得精准定位. 为了解决这两问...原创 2019-04-09 21:54:16 · 666 阅读 · 0 评论 -
SPPNet: Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
Abstract通过空间金字塔的使用, 能够输入任意大小的图像而不需要裁剪, 这样避免了因为裁剪而带来的损失.其次通过卷积计算整个图像的特征图, 然后使用proposal映射特征图提取特征进行后续预测边界框, 使得目标检测的速度比R-CNN提升很多倍.1. Introduction流行的CNN输入都是固定大小的图片, 对于任意大小的图片,当前的解决方法是:1. 裁剪: 这容易导...原创 2019-04-09 21:37:07 · 841 阅读 · 0 评论 -
ResNet: Deep Residual Learning for Image Recognition
网络:ResNet 结构 Deep 18,32,50,110,1020 Conv Size=3X3(第一层是7X7) Stride=2 Padding 1 ...原创 2019-03-29 00:14:45 · 845 阅读 · 0 评论 -
zoom-out: Feedforward semantic segmentation with zoom-out features
zoom-out:zoom-out和缩小图形是有区别的. zoom即改变视距. zoom-out是将视距放大, 即离事物远一点去观察事物, 所以事物看到确实会缩小. 另一方面, 计算中的图形缩小却代表的是视距不变, 而是将形状缩小. 对于平面物体两者差别不大, 但是对于一个三维物体, 情况就会不同: 在改变视距的情况下, 在被观察到的物体中, 距离近的大小相对变化大, 距离远的物体相对变化小....原创 2019-03-29 00:03:15 · 623 阅读 · 0 评论 -
DeepLab-V1: SEMANTIC IMAGE SEGMENTATION WITH DEEP CON-VOLUTIONAL NETS AND FULLY CONNECTED CEFs
Abstract通过结合DCNNs(深度卷积网络)和概率图模型解决语义分割问题. DCNN最后一层不足够充分的定位, 无法进行精确的目标分割, 这源于非常固定的属性使得DCNNs对于高层任务性能好. 通过合并DCNN最后一层的相应和一个全连接的CRF克服这个深度网络本地化差的属性.最好的结果是怎么获取的:1. careful network re-purposing2. wavel...原创 2019-03-31 16:24:44 · 1301 阅读 · 0 评论 -
FC-CRF: Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials
参考:https://blog.youkuaiyun.com/ahnu120705097/article/details/78913675Abstract传统的图像分割和标记技术是在像素或者图片区域上定义CRF. 虽然区域模型上通常有密集的成对连通性, 但是像素级别的模型一般只允许用在稀疏图结构. 本文是在整个图像上运用全连接的CRF模型(FC-CRF). 结果CRF图模型的边非常多, 不能使用...转载 2019-03-27 11:20:33 · 2781 阅读 · 0 评论 -
VGG: VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION
Abstract:我们的工作是研究更加深的卷及网络对于大规模机器学习的影响. 我们的主要贡献是使用3X3的非常小的卷积层来增加网络的深度改善其性能, 最终的深度在16~19层. 这些发现是基于14年的比赛上的提交, 队伍在目标定位和图像分类方面分别获得了第一和第二.我们同时展示了我们的网络对于别的数据集也有同样的适用性, 他们获得了世界顶尖的水平. 我们已将我们的两种性能最好的Con...原创 2019-03-27 10:03:34 · 1237 阅读 · 0 评论 -
R-CNN: Rich feature hierarchies for accurate object detection and semantic segmentation Tech report
AbstractRegion with CNN = R-CNNdatasets: PASCAL VOC创新点:(1) 将大容量的CNN应用于定位和检测任务中(2) 对于训练数据缺乏时, 监督预训练作为辅助任务, 接着进行特别域的微调1. Introduction简述CNN发展问分类任务中的CNN多大程度可以应用于目标检测?我们通过缩小图像分类和目标检测之间的差距来回答这个...原创 2019-03-29 22:49:22 · 673 阅读 · 0 评论