今日CS.CV 计算机视觉论文速览
Wed, 17 Apr 2019
Totally 65 papers
?上期速览✈更多精彩请移步主页
Interesting:
?Pyramid-context ENcoder Network (PEN-Net)基于金字塔编码器的高质量图像修复, 利用Unet结构通过编码图像内容信息并解码,训练了具有高层级语义特征图注意力的编码器,并可将这些注意力转移到低层级特征图上,可以将缺失的部分特征从深层向浅层转移,并在视觉和语义上修复缺失部分。最后通过金字塔损失和对抗损失训练解码器实现快速训练和有效infer。(from 中山大学 微软亚研)
一些结果:
code:https://github.com/researchmm/PEN-Net-for-Inpainting
?超分辨综述,基于结构不同来进行算法解构,并基于参数量、算法设置和训练细节、结构创新等来分析了模型的各方面能力。并在6个公开数据集上进行了公开评测。未来可能的研究方向:与先验(场景、传感器、拍摄条件等)结合、目标函数和度量、通用解决方案、非监督、高/任意SR比例,真实/仿真的退化过程。 (from CSIRO, Australia)
各种模型架构:
六个公开数据集:
计算量参数量的影响:
各种属性总结:
?RIDNet基于特征注意力的真实图像去噪, 深度图像去噪在真实非均匀噪声上表现不佳,需要多级神经网络处理。研究人员利用残差单元促进了低频信息的流动,并应用特征注意力来探索了通道依赖性,实现了单阶段的真实图像去噪模型。(from 澳大利亚国立)
相关方法:NLM [11] and BM3D [16], SADCT [24], SAPCA [18], NLB [34], and INLM [26]
?Objects as Points基于中心点检测的高效CenterNet, 在先前的目标检测工作中模型几乎会遍历每个可能的位置给出边界框并分类,浪费了大量的算力。CenterNet则使用了单个点为物体建模,基于关键点估计来获取中心点,并基于中心点回归出框大小、3D位置和位姿以及方向等属性。研究人员还基于相同的方法估计了3Dbbox和人体位姿。实现了很高的mAP(from 德克萨斯奥斯丁)
基于中心的检测方法和一些结果:
不同检测任务:
速度和表现:
与其他方法比较:
位姿估计和3Dbbox:
code:https://github.com/xingyizhou/CenterNet
?音视频分离,通过从视频中分离相似物体的声音,同时为每一个训练对产生精确的视频级音频,解耦了视频和音频间的关系,并最终实现了视觉引导的音频分离和去噪。(from 德克萨斯奥斯丁)
训练过程:
dataset:MUSIC, AudioSet, and AV-Bench datasets
?低功耗视觉综述, Low-Power Image Recognition Challenge (LPIRC) 挑战赛,综述。基于TFlite在移动端实现、coffe2在tx2上实现、线上实现。(from 普渡)
?Total Denoising无监督三维点云去噪, 在流型空间上进行去噪,将不合符随机分布的点云噪声进行整体考虑。(from 德国乌尔姆大学)
点云流型和点云非结构化编解码:
?RS-CNN相关形状CNN用于点云分析, 主要集中于学习点之间的几何拓扑相关性,并基于几何先验学习出高层级的相关性。局部准确的空间布局可以被精确表示。(from 中科院自动化所)
用于分类和分割的不同配置,分割包含了长程链接:
?Complexer-YOLO语义点云实时3D识别追踪, 提出了结合三维检测和语义分割的联合模型,利用语义分割辅助了三维点云检测和追踪。并利用规模化旋转变化SRTs提高了推理速度。(from valeo.com )
架构图和效果图:
?Fashion-AttGAN基于多主体GAN的时尚元素编辑, AttGAN可以用于时尚元素的编辑和生成,通过隐空间编辑可保持其他属性不变的情况下改变服饰的样式,并提出了包含22属性的14221个图像的数据集。(from VIPSHOP US Inc唯品会美国)
重建的一些结果,3-6列改变袖子,后面改变颜色:
code and dataset:https://github.com/ChanningPing/Fashion_Attribute_Editing
?基于贝叶斯的图像先验, 在先前深度图像先验Deep Image prior的基础上研究人员将高斯过程引入了图像修复、重建和去噪的任务中,研究发现深度图像先验在每一层通道趋于无穷时将渐近高斯过程,并能得到对应的高斯核。研究人员在infer过程中引入了贝叶斯方法,通过随机梯度郎之万动力学实现后验推理避免了过早停止,并改善了重建和去噪的结果。(from 麻省大学)
一些实验结果及不确定性图:
project:https://people.cs.umass.edu/~zezhoucheng/gp-dip/
code:https://github.com/ZezhouCheng/GP-DIP
?人群运动估计, 通过监控信息估计人群的流动方向,将有效避免群体拥堵和事故的发生。(from Indian Institute of Technology Bhubaneswar)
人群建模和提出的网络结构:
分割与抽取:
?防瞌睡数据集和方法, 用于检测瞌睡早期迹象,给出了数据集和基于层级多尺度长短时神经网络HM-LSTM的方法。 (from 德克萨斯阿灵顿)
数据集/判断指标和提出的HM-LSTM方法:
RLDD dataset: sites.google.com/view/utarldd/home
code:https://github.com/rezaghoddoosian
?Focus Is All You Need事件相机的损失函数,用一系列运动补偿函数为事件相机更好的应用。提出了聚焦损失函数用于事件对齐,可用于旋转移动、深度和光流估计。 (from 苏黎世大学)
Daily Computer Vision Papers
Matrix and tensor decompositions for training binary neural networks Authors Adrian Bulat, Jean Kossaifi, Georgios Tzimiropoulos, Maja Pantic 本文是关于改进二元神经网络的训练,其中激活和权重都是二元的。虽然用于神经网络二值化的现有方法独立地对每个滤波器进行二值化,但是我们建议使用矩阵或张量分解来参数化每个层的权重张量。然后通过量化函数,例如量化函数,使用这种潜在的参数化来执行二值化处理。符号函数应用于重建的权重。我们的方法的一个关键特征是,当重建被二值化时,潜在分解空间中的计算在真实域中完成。这具有若干优点,潜在因子分解在二值化之前强制执行滤波器的耦合,这显着提高了训练模型的准确性。 ii,在训练时,使用实值矩阵或张量分解对每个卷积层的二进制权值进行参数化,在推理期间,我们仅使用重构的二进制权重。因此,我们的方法在模型压缩和加速推理方面不会牺牲二进制网络的任何优势。作为进一步的贡献,不是像在先前的工作中那样分析地计算二元权重缩放因子,而是建议通过反向传播来区别地学习它们。最后,我们表明,当对人体姿态估计的挑战性任务进行测试时,我们的方法明显优于现有方法,超过4项改进,而ImageNet分类最多可达5项性能提升。 |
Objects as Points Authors Xingyi Zhou, Dequan Wang, Philipp Kr henb hl 检测将对象标识为图像中的轴对齐框。大多数成功的物体探测器列举了潜在物体位置的几乎详尽的列表并对每个物体进行分类。这是浪费,低效,并且需要额外的后期处理。在本文中,我们采取了不同的方法。我们将对象建模为其边界框中心点的单个点。我们的探测器使用关键点估计来查找中心点并回归到所有其他对象属性,例如大小,3D位置,方向甚至姿势。我们的基于中心点的方法CenterNet比相应的基于边界框的检测器端到端可微,更简单,更快速,更准确。 CenterNet实现了MS COCO数据集的最佳速度准确性折衷,其中28.1 AP为142 FPS,37.4 AP为52 FPS,45.1 AP为1.4 FPS多尺度测试。我们使用相同的方法来估计KITTI基准中的3D边界框和COCO关键点数据集上的人体姿势。我们的方法与复 |