【AI视野·今日CV 计算机视觉论文速览 第220期】Wed, 16 Jun 2021

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 16 Jun 2021
Totally 76 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Is this Harmful? Learning to Predict Harmfulness Ratings from Video
Authors Johan Edstedt, Johan Karlsson, Francisca Benavente, Anette Novak, Amanda Berg, Michael Felsberg
自动识别视频中有害内容是具有广泛应用程序的重要任务。然而,由于收集高质量标签以及要求苛刻的计算要求,任务没有满足的一般方法。通常,仅考虑问题的小子集,例如识别暴力内容。在解决一般问题的情况下,对缺乏标签和计算复杂性进行粗略近似和简化。在这项工作中,我们识别并解决两个主要障碍。首先,我们创建一个大约4000个视频片段的数据集,由该领域的专业人员注释。其次,我们展示了视频识别的进步使我们的数据集可以在考虑场景的完整上下文的数据集中实现培训模型。我们对我们的建模选择进行了深入研究,并发现我们非常受益于相结合的视觉和音频模型以及大规模视频识别数据集和级平衡采样的预先预订进一步提高了性能。我们还执行一个定性研究,揭示了我们数据集的大量模态性。我们的数据集将在出版时提供。

Dynamic Head: Unifying Object Detection Heads with Attentions
Authors Xiyang Dai, Yinpeng Chen, Bin Xiao, Dongdong Chen, Mengchen Liu, Lu Yuan, Lei Zhang
组合定位和物体检测分类的复杂性导致了繁荣的方法发展。以前的作品试图提高各种对象检测头中的性能,但无法呈现统一视图。在本文中,我们提出了一种新的动态头框架,统一对象检测头的注意事项。通过相互结合特征级别之间的多重自我注意机制来进行规模意识,在空间意识的空间位置,以及在用于任务意识的输出信道内,所提出的方法显着提高了对象检测磁头的表示能力,而没有任何计算开销。进一步的实验表明,拟议的动态头对Coco基准的有效性和效率。使用标准ResNext 101 DCN骨干网,我们在很大程度上提高了流行对象探测器的性能,并在54.0 AP下实现了新的现有技术。此外,利用最新的变压器骨干和额外数据,我们可以将当前最好的CoCo结果推动到60.6 AP的新记录。该代码将被释放

Gradient Forward-Propagation for Large-Scale Temporal Video Modelling
Authors Mateusz Malinowski, Dimitrios Vytiniotis, Grzegorz Swirszcz, Viorica Patraucean, Joao Carreira
如何有效地在大量时间数据上培训神经网络,以计算更新参数所需的渐变,BackPropagation阻止计算,直到正向和向后通行证完成。对于时间信号,这引入了高延迟和妨碍实时学习。它还在连续层之间产生耦合,这限制了模型并行性并提高了存储器消耗。在本文中,我们在侧向构建,避免通过在时间前向前传播近似梯度,并且我们基于跳过连接的不同变体提出了信息的时间集成的机制。我们还展示了如何将计算和委派个人神经模块委托到不同的设备,允许分布式和并行培训。建议的跳过侧面实现了低延迟训练,模型并行性,并且重要的是,能够提取时间特征,导致更稳定的训练和在现实世界动作识别视频数据集上提高性能,例如HMDB51,UCF101和大型动力学600 。最后,我们还表明,用跳过横向训练的型号比侧向模型产生更好的未来框架,因此它们可以更好地利用运动线索。

Multi-StyleGAN: Towards Image-Based Simulation of Time-Lapse Live-Cell Microscopy
Authors Tim Prangemeier, Christoph Reich, Christian Wildner, Heinz Koeppl
时间间隔荧光显微镜TLFM结合预测数学建模是一种强大的工具,可以研究单个细胞水平的固有动态生命过程。这种实验昂贵,复杂和劳动密集型。一种免费的方法和完全在Silico实验中的一步,是综合图像本身。在这里,我们提出了一种多样式作为模拟活细胞时间间隔荧光显微图像的描述方法,基于过去的实验。该新颖的生成对抗性网络合成了连续时间步导的多个域序列。我们展示了在微结构环境中的多个活酵母细胞的图像上的多样式,并在我们的实验室中记录的数据集上列车。该模拟捕获基础的生物物理因素和时间依赖性,例如细胞形态,生长,物理相互作用以及荧光报告蛋白的强度。立即应用是为特征提取算法生成额外的培训和验证数据,或者帮助和加快开发先进的实验技术,例如在线监测或控制细胞。

Generating Data Augmentation samples for Semantic Segmentation of Salt Bodies in a Synthetic Seismic Image Dataset
Authors Luis Felipe Henriques, S rgio Colcher, Ruy Luiz Milidi , Andr Bulc o, Pablo Barros
如今,地下盐体本地化和描绘,也称为盐体的语义细分,是最具挑战性的地球物理主义任务之一。因此,识别大盐体是臭名昭着的,并且对于识别烃储层和钻道规划至关重要。这项工作提出了一种基于训练两种生成模型的数据增强方法,以增加用于盐体的语义分割的地震图像数据集中的样本数量。我们的方法使用深度学习模型来生成对地震图像贴片的对和各自的盐掩模,以便数据增强。第一型号是变形式自动化器,负责产生盐体掩模的斑块。第二是条件归一化流量模型,其接收所生成的掩码作为输入并生成相关的地震图像斑块。我们通过比较了在两个合成地震图像的数据集中比较了用于语义分割的十个不同状态的十个不同状态的性能的十个不同状态的性能,从两个合成地震图像的数据集中进行了评估。拟议的方法在所有比较模型中都会产生8.57的平均改善。最好的结果是通过DEEPLABV3模型变体实现的,这在我们的增强时培训了95.17的iou得分。此外,我们的提案表现优于六种选择的数据增强方法,并通过从弹性转换的增强来实现我们的DA,实现了9.77的比较中最显着的改进。最后,我们示出该方法通过实现与在较小的上下文尺寸上获得的结果相当的结果来适应更大的上下文尺寸。

Multi-script Handwritten Digit Recognition Using Multi-task Learning
Authors Mesay Samuel Gondere, Lars Schmidt Thieme, Durga Prasad Sharma, Randolf Scholz
手写的数字识别是机器学习中的广泛研究区域之一。除了在Mnist DataSet上的手写数字识别方面的更广泛的研究外,还有许多关于各种脚本识别的研究工作。然而,对于多脚本数字识别并不是很常见,这鼓励开发强大和多用途系统。另外,在多脚本数字识别上工作,可以将脚本分类视为相关任务的脚本分类。显然,使用相关任务中包含的信息,多任务学习通过电感转移来提高模型性能。因此,在本研究中,将研究使用多任务学习的多脚本手写的数字识别。作为证明问题解决方案的具体情况,Amharic手写字符识别也将是实验的。研究了三个脚本的手写数字,包括拉丁语,阿拉伯语和kannada,表明,具有对各个任务的重新制定的多项任务模型已经显示出有前途的结果。在这项研究中,提出了一种使用各个任务预测的新方式,以帮助分类性能并规范不同的损失以获得主要任务的目的。此发现优于基线和传统的多任务学习模型。更重要的是,它避免了需要加权不同损失的任务损失,这是多任务学习中的挑战之一。

Towards Total Recall in Industrial Anomaly Detection
Authors Karsten Roth, Latha Pemula, Joaquin Zepeda, Bernhard Sch lkopf, Thomas Brox, Peter Gehler
能够发现有缺陷的部件是大规模工业制造中的关键组成部分。我们在这项工作中解决的特殊挑战是冷启动问题适合使用标称无缺陷示例图像的模型。虽然每个级别的手工制作的解决方案是可能的,但目标是构建自动在许多不同任务上同时运行的系统。最好的PEFORMING方法将嵌入与异常检测模型的Imagenet模型组合。在本文中,我们在此工作行中扩展并提出了PatchCore,它使用最大代表性的名义补丁功能。 PatchCore提供竞争力的推理时间,同时实现检测和本地化的最先进性能。在标准数据集MVTEC广告中,PACKCORE实现了图像级异常检测AUROC评分为99.1,而不是与下一个最佳竞争对手相比的错误。我们进一步报告了两个额外数据集的竞争结果,并在少数样品制度中找到了竞争结果。

BEiT: BERT Pre-Training of Image Transformers
Authors Hangbo Bao, Li Dong, Furu Wei
我们介绍了一个自我监督的视觉表达模型Beit,其代表来自图像变压器的双向编码器表示。在自然语言处理区域开发的BERT之后,我们向前拉视觉变压器提出了一个蒙面的图像建模任务。具体地,每个图像在我们的预训练中具有两个视图,即,诸如16x16像素的图像补丁以及Visual tokens i.e.,离散令牌。我们首先将原始图像授予视觉令牌。然后我们随机掩盖一些图像修补程序并将其送入骨干变压器。预训练目标是根据损坏的图像补丁恢复原始的视觉令牌。在Pre训练Beit之后,我们通过在佩带的编码器上附加任务图层直接微调下游任务的模型参数。图像分类和语义分割的实验结果表明,我们的模型通过先前的预培训方法实现了竞争力。例如,基本尺寸BEIT在Imagenet 1K上实现了83.2前1个精度,从划痕Deit训练81.8具有相同的设置,显着优化。此外,大尺寸BEIT仅使用Imagenet 1K获得86.3,甚至优于vit L,在想象成22K 85.2上有监督的预训练。代码和预磨料型号可用

Spot the Difference: Topological Anomaly Detection via Geometric Alignment
Authors Steffen Czolbe, Aasa Feragen, Oswin Krause
几何对齐出现在各种应用中,从域间适配,最佳运输和机器学习光流量中的归一化流量,以及在计算机视觉中的学习中学到的生物医学成像中的可变形登记。经常性挑战是域的对齐,其拓扑在下游分析中常规忽略的问题不同样的问题。作为解决这种对准问题的第一步,我们提出了一种无监督的拓扑差异检测算法。该模型基于条件变形自动编码器,并检测关于登记步骤的参考的拓扑异常。我们考虑在空间变化和B意外转换下的图像中的拓扑变化。我们的方法是在图像中无监督异常检测的代理任务验证。

A Spacecraft Dataset for Detection, Segmentation and Parts Recognition
Authors Dung Anh Hoang, Bo Chen, Tat Jun Chin
几乎所有现代生活的各个方面都依赖于太空技术。由于伟大的计算机愿景促进了一般的基于深度学习的技术,特别是在几十年中,世界目睹了深入学习的越来越多,在解决空间应用中的问题,如自动驾驶机器人,示踪剂,像机器人这样的昆虫宇宙和健康监测航天器。这些只是在深度学习的帮助下具有高级空间产业的一些突出示例。然而,深度学习模型的成功需要大量的培训数据来进行体面的性能,而另一方面,有很多有限的公共空间数据集,用于深入学习模型的培训。目前,没有用于基于空间的对象检测或实例分段的公共数据集,部分原因是手动注释对象分割掩码,因为它们需要像素级标记时非常耗时,更不用说从空间获得图像的挑战。在本文中,我们的目标是通过释放用于航天器检测,实例分割和部分识别的数据集来填补这种差距。这项工作的主要贡献是使用空间站和卫星图像的数据集的开发,具有丰富的注释,包括用自动过程和手动努力的混合物获得的空间盒和掩模的横向箱和掩模。我们还提供对象检测和实例分段中的最先进方法的评估作为数据集的基准。可以在下载所提出的数据集的链接

Weakly-Supervised Photo-realistic Texture Generation for 3D Face Reconstruction
Authors Xiangnan Yin, Di Huang, Zehua Fu, Yunhong Wang, Liming Chen
虽然最近在3D面部重建方面取得了很大进展,但最先前的工作已经致力于预测准确和细粒度的3D形状。相比之下,相对较少的工作侧重于产生高保真面纹理。与照片现实2D面貌图像生成的繁荣相比,尚未研究高保真3D面纹理生成。在本文中,我们提出了一种新的UV地图生成模型,其预测来自单个面部图像的UV映射。该模型由UV采样器和UV发生器组成。通过选择性地对输入面部图像S像素进行采样并调整它们的相对位置,UV采样器产生不完整的UV地图,可以忠实地重建原始面。不完整的UV地图中缺少纹理由UV发生器填充。培训基于由3DMM纹理和输入面纹理混合的伪接地真理,从而弱监督。要处理伪紫外线图中的伪影,可以利用多个部分UV映射鉴别器。

Generating Thermal Human Faces for Physiological Assessment Using Thermal Sensor Auxiliary Labels
Authors Catherine Ordun, Edward Raff, Sanjay Purushotham
热图像揭示了关于人类压力,炎症迹象和可见图像中无法看到的情绪的重要生理信息。提供一种从可见图像产生热面的方法对于远程医疗社区来说是非常有价值的,以便显示该医疗信息。据我们所知,热VT面平移可见有限的作品,并且许多电流工作变得相反的方向,以产生来自热监测图像电视的可见面进行执法应用。结果,我们介绍了FAVTGAN,该VT GAN使用与辅助传感器标签预测网络的PIX2PIX图像转换模型用于从可见图像产生热面。由于大多数电视方法仅在一个热传感器汲取的一个数据源上培训,因此我们将数据集与面孔和城市的培训结合起来。这些组合数据从类似的传感器捕获,以便引导训练和转移学习任务,特别是有价值的,因为可见热面数据集是有限的。与单独的单个数据集上的训练相比,这些组合数据集上的实验表明,FavTan表示生成的热面的SSIM和PSNR分数增加。

Computer-aided Interpretable Features for Leaf Image Classification
Authors Jayani P. G. Lakshika, Thiyanga S. Talagala
植物物种识别是耗时,昂贵,并且需要大量的努力和专业知识。最近,许多研究人员使用深入学习方法来使用植物图像直接对植物进行分类。虽然深入学习模式取得了巨大的成功,但缺乏可解释性限制了他们的广泛应用。为了克服这一点,我们探讨了从植物叶片图像中提取的可解释,可测量和计算机辅助特征的使用。图像处理是特征提取中最具挑战性和关键步骤之一。图像处理的目的是通过去除不期望的失真来改善叶图像。我们算法的主要图像处理步骤涉及我将原始图像转换为RGB红色绿色蓝色图像,II灰度缩放,III高斯平滑,IV二进制阈值,V删除茎,VI关闭孔和VII调整大小。图像处理后的下一步是从植物叶片图像中提取特征。我们介绍了52个计算上有效的功能来分类植物物种。这些功能主要分为四组,因为II形状的特征,II基于颜色的特征,III基于纹理的特征,以及IV Scagnostic功能。长度,宽度,面积,纹理相关,单调和粗糙度是为了命名其中很少。我们探讨了在监督学习和无监督的学习环境下歧视兴趣阶层的功能的能力。为此,监督维度降低技术,线性判别分析LDA和无监督的维度降低技术,主要成分分析PCA用于转换和可视化数字图像空间的图像到特征空间。结果表明,在监督和无监督的学习设置下,该特征足以区分兴趣的课程。

Mutation Sensitive Correlation Filter for Real-Time UAV Tracking with Adaptive Hybrid Label
Authors Guangze Zheng, Changhong Fu, Junjie Ye, Fuling Lin, Fangqiang Ding
无人机的空中车辆无人机的视觉跟踪面临着众多挑战,例如,对象运动和闭塞。这些挑战通常引入目标外观的意外突变并导致跟踪失败。然而,由于预定标签,基于普遍的判别相关滤波器DCF基于诱变的跟踪器对目标突变不敏感,其仅仅专注于训练区域的中心。同时,由遮挡或类似物体引起的外观突变通常会导致错误信息的不可避免地学习。为了应对外观突变,本文提出了一种基于DCF的基于DCF的方法,以增强具有适应性杂交标签的敏感性和抗突变,即MSCF。理想标签与相关滤波器共同优化,仍然是时间的一致性。此外,施加一种新的突变测量,施加称为突变威胁因子MTF以动态校正标签。广泛使用的UAV基准进行了相当大的实验。结果表明,MSCF跟踪器的性能超过了基于技术和基于深的跟踪器的其他26状态。具有38帧的实时速度,所提出的方法足以让UAV跟踪佣金。

Relation Modeling in Spatio-Temporal Action Localization
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值