今日CS.CV 计算机视觉论文速览
Fri, 26 Apr 2019
Totally 44 papers
?上期速览✈更多精彩请移步主页
Interesting:
?RepPoints and RPDet, 提出了基于代表性点的目标检测方法代替bbox。Rep-Points将检测一系列点来代表目标的特性和语义区域。这种基于丰富表示点的方法不需要锚点来得到初始bbox。达到了65。0的AP50(from 北大 清华 微软亚研)
基于表示点的一些检测结果:
?HAR-Net, 单阶段混合注意力联合学习的目标检测模型 ,将注意力机制充分引入单阶段目标检测中。包括空间注意力、通道注意力和对齐注意力等.其中固定对称比例的堆叠膨胀卷积层用于学习空间注意力、交叉层级的组归一化和序列激活模块用于学习通道注意力、对齐注意力主要由变形滤波器组成,三种机制协同形成了混合注意力知己,并将其嵌入到Retina-Net中,得到高效的混合注意力retina网络,用于单层级的目标检测。实现了45.8%的mAP。(from 清华)
对称堆叠膨胀卷积用于空间注意力,避免了上下采样造成的错误对齐:
金字塔共享的通道结构,包含了L2组归一化和序列激活:
对齐注意力模块:
HAR的基本架构,混合了三种注意力机制:
与现有方法的对比:
?Deep SR-ITM, 联合图像超分辨和色调映射技术将低分辨标准动态范围的图像映射到高分辨高动态范围的图像。 (from )
UHD的映射和映射模型:
模型结构如下图所示,包含了残差块、残差调制modulation块(用于建模更多复杂映射),残差跳接块和残差调制跳接块。输入图像首先利用了引导滤波处理,并与原图相处放入精细分支。
简化版网络和一些色调映射比较:
?Corner-based Building Height Estimation,CBHE, 用于从海量二维数据中估计建筑高度。基于建筑物的角点和屋脊线,并利用BuildingNet对角点和屋脊线分类,最后通过针孔模型计算出建筑物的高度。(from 墨尔本大学)
?动态非刚体场景的深度预测, 通过计算视差图来作为训练的监督,并提出了一种损失函数来学习位置内参和基线时预测深度图。(from CMU)
数据集:Web Stereo Video Dataset (WSVD)
?预测移动镜头下移动个体场景的深度图, 利用大量的网络视频:主体不动但背景多样化、手持镜头拍摄、自然的体态。因为人在静止、可以利用多视角来重建出深度数据作为标签。而预测时则利用运动视差来引导深度预测。(from Google Research)
一些预测结果:
dataset:Mannequin Challenge
?基于U-Net的超声图像分割, (from Concordia University)
?室内微型无人机深度图构建, 基于vSLAM估计好的稀疏点云,并基于深度突变的位置进行分割,并引入了基于片层的局域拟合方法,结合光度连续性和共面性来实现,并利用了面扫描技术来增强。 (from TCS Research & Innovation)
?引导视频分割, 利用前景分割算法作为引导,并与光流、和彩色图的特征进行融合,随后解码后得到分割结果。(from 都柏林城市大学)
相关前景提取算法:
dataset:https://davischallenge.org/davis2016/soa_compare.html
稠密视频目标分割方法VOS:https://davischallenge.org/index.html
Daily Computer Vision Papers
GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond Authors Yue Cao, Jiarui Xu, Stephen Lin, Fangyun Wei, Han Hu 非本地网络NLNet通过将查询特定的全局上下文聚合到每个查询位置,提供了捕获远程依赖关系的开创性方法。然而,通过严格的实证分析,我们发现由非本地网络建模的全局上下文对于图像内的不同查询位置几乎相同。在本文中,我们利用这一发现创建了一个基于独立于查询的公式的简化网络,该网络可以保持NLNet的准确性,但计算量却大大减少。我们进一步观察到这种简化设计与Squeeze Excitation Network SENet具有相似的结构。因此,我们将它们统一为全局上下文建模的三步一般框架。在一般框架内,我们设计了一个更好的实例化,称为全局上下文GC块,它是轻量级的,可以有效地模拟全局上下文。轻量级属性允许我们将其应用于骨干网络中的多个层以构建全局上下文网络GCNet,其通常在各种识别任务的主要基准上优于简化的NLNet和SENet。代码和配置发布于 |
Local Relation Networks for Image Recognition Authors Han Hu, Zheng Zhang, Zhenda Xie, Stephen Lin 卷积层多年来一直是计算机视觉中的主要特征提取器。然而,卷积中的空间聚合基本上是模式匹配过程,其应用固定滤波器,其在建模具有变化空间分布的视觉元素时效率低。本文提出了一种新的图像特征提取器,称为局部关系层,它根据局部像素对的组成关系自适应地确定聚合权重。通过这种关系方法,它可以以更有效的方式将视觉元素组合成更高级别的实体,从而有利于语义推理。使用本地关系层构建的网络(称为本地关系网络LR Net)可以提供比在ImageNet分类等大规模识别任务中使用常规卷积构建的对应网络更大的建模能力。 |
RepPoints: Point Set Representation for Object Detection Authors Ze Yang, Shaohui Liu, Han Hu, Liwei Wang, Stephen Lin 现代物体探测器严重依赖于矩形边界框,例如锚点,建议和最终预测,以在各种识别阶段表示物体。边界框使用方便,但仅提供对象的粗略定位ÿ |