【AI视野·今日CV 计算机视觉论文速览 第229期】Thu, 1 Jul 2021

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 1 Jul 2021
Totally 53 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Shape Completion via IMLE
Authors Himanshu Arora, Saurabh Mishra, Shichong Peng, Ke Li, Ali Mahdavi Amiri
形状完成是完成部分输入形状的问题,例如部分扫描。由于现实世界数据中的遮挡或稀疏性等问题,此问题在计算机视觉和机器人中找到了重要应用。然而,与形状完成相关的大多数现有研究已经专注于通过学习一对一的映射来完成形状,这限制了所产生的结果的多样性和创造力。我们提出了一种新颖的多模式形状完成技术,可有效地能够学习一个到许多映射并产生不同的完整形状。我们的方法基于条件隐式的最大值估计IMLE技术,其中我们在部分3D点云上调节我们的输入。我们通过将其与定量和定性相比,广泛地评估我们的方法。我们表明我们的方法优于替代品的形状的完整性和多样性

S2C2 - An orthogonal method for Semi-Supervised Learning on fuzzy labels
Authors Lars Schmarje, Monty Santarossa, Simon Martin Schr der, Claudius Zelenka, Rainer Kiko, Jenny Stracke, Nina Volkmann, Reinhard Koch
半监督学习SSL可以减少所需的标记图像数据的数量,从而降低深度学习的成本。大多数SSL方法只考虑课程的清晰区别,但在许多真实世界数据集中,由于内部或interobserver可变性,不会给出这种明确的区别。这种变异性可以导致每个图像的不同注释。因此,许多图像具有模糊的注释,并且它们的标签需要被认为是模糊的。必须解决这一标签的这种模糊性,因为它将限制半监督学习SSL的性能和一般深入学习。我们提出了半监督分类集群S2C2,可以扩展许多深SSL算法。 S2C2可以估计标签的模糊性,并将SSL应用于当然标记的数据的分类,同时为具有相似但模糊标签的图像创建不同的图像的群集。我们表明S2C2导致中位数为7.4更好的F1分数的F1分数,以及5.4跨多个SSL算法和数据集的簇的内部距离,而由于我们的方法的模糊估计而言更加解释。总的来说,通过我们的方法S2C2的半监督学习的组合导致更好地处理标签的模糊性,从而更具世界数据集。

Small in-distribution changes in 3D perspective and lighting fool both CNNs and Transformers
Authors Spandan Madan, Tomotake Sasaki, Tzu Mao Li, Xavier Boix, Hanspeter Pfister
神经网络易于对包括2D旋转和移位,图像作物,甚至对象颜色的变化的较小变换。这通常归因于训练数据集中的偏差,并且由于不尊重采样定理而缺乏2D班役权。在本文中,我们通过对非偏见的数据集进行培训和测试来挑战这一假设,并且显示网络对于小的3D透视变化和照明变化,不能通过数据集偏置或缺乏换档不变性来解释。要在分发错误中找到这些,我们介绍了一种基于进化的策略es,我们称之为CMA搜索。尽管培训大规模0.5亿图像,相机和光变化的无偏见数据集,但在超过71例中,CMA搜索可以在正确的分类图像附近找到相机参数,这导致分发错误分类,参数的3.6变化。随着照明变化,CMA搜索在33起参数变化的33起案例中找到错误分类。最后,我们扩展了这种方法,以查找reset和Openai S剪辑模型的ImageNet图像附近的错误分类。

Learning More for Free - A Multi Task Learning Approach for Improved Pathology Classification in Capsule Endoscopy
Authors Anuja Vats, Marius Pedersen, Ahmed Mohammed, istein Hovde
无线胶囊内窥镜检查的计算机辅助诊断CDX的进展因缺乏数据而被挫败。丰富的代表性健康和异常情况的不足导致分离的病理分析,这不能处理现实的多病程情景。在这项工作中,我们通过解决WCE多中心,多重病理分类问题,从有限的数据中探讨如何免费了解更多信息。学习更多意思是学习超过完全监督将允许使用相同的数据。这是通过在多任务学习下完全监督的自我监督来完成的。此外,我们在设计自我监督任务时从人类视觉系统HV吸取灵感,并调查数据本身的似乎是无效的信号,如果是的话,可以利用性能,如果是的话,这是哪个信号比其他信号更好。此外,我们展示了我们对WCE中更强大的多病理CADX的踏脚石的高级功能的分析。

Automated Onychomycosis Detection Using Deep Neural Networks
Authors Abdurrahim Yilmaz, Rahmetullah Varol, Fatih Goktay, Gulsum Gencoglan, Ali Anil Demircali, Berk Dilsizoglu, Huseyin Uvet
临床皮肤病学,仍然依赖于使用亮野显微镜在氢氧化钾KOH溶液中的真菌的手工反应。但是,这种方法需要很长时间,基于临床医生的经验,并且具有低的准确性。随着临床显微镜领域的神经网络应用的增加,现在可以自动化这些手动过程,提高效率和准确性。本研究提出了一种深度神经网络结构,可以为这些问题提供快速解决方案,并且可以在没有着色剂的灰度图像中进行自动真菌检测。收集了81个真菌和235个Ceratine的微观图像。然后,提取较小的贴剂,含有2062个真菌和2142个Ceratine。为了检测真菌和Ceratine,创建了两个模型,其中一个是定制神经网络,另一个模型是基于VGG16架构。开发的定制模型具有99.84精度,曲线AUC值为1.00的区域,而VGG16型号的精度为98.89型,AUC值为0.99。但是,临床医生的平均准确性和AUC值分别为72.8和0.87。这种深度学习模型允许开发可以检测微观图像内的真菌的自动化系统。

Weakly Supervised Temporal Adjacent Network for Language Grounding
Authors Yuechen Wang, Jiajun Deng, Wengang Zhou, Houqiang Li
颞型语言接地TLG是愿景和语言理解的基本和挑战性问题。现有方法主要关注颞界边界标签进行训练的完全监督设置,但是,占昂贵的注释成本。在这项工作中,我们致力于弱监督TLG,其中多个描述句子被给予未经监控的视频,而没有时间边界标签。在此任务中,学习句子语义和视觉内容之间的强跨模型语义对齐至关重要。为此,我们介绍了一种新颖的弱监督时间相邻网络WSTAN,以进行时间语言接地。具体而言,WSTAN通过在多实例学习MIL范例中利用时间相邻网络来学习跨模型语义对齐,整个描述段落作为输入。此外,我们将一个互补分支机构纳入框架,该框架明确地将预测与MIL阶段的伪监督进行了预测。在MIL分支机构和互补分支中设计了一种额外的自我辨别损失,旨在通过自我监督来提高语义歧视。广泛的实验是在三个广泛使用的基准数据集中进行的,Emph I.,ActivityNet标题,Charades Sta和Didemo,结果表明了我们方法的有效性。

Recurrently Estimating Reflective Symmetry Planes from Partial Pointclouds
Authors Mihaela C t lina Stoian, Tommaso Cavallari
许多人制造的物体的特征在于沿着一个或多个平面方向对称的形状。估计这种对称平面的位置和取向可以帮助许多任务,例如估计感兴趣的对象的整体取向或执行形状完成,其中对象的部分扫描反映在估计的对称平面上,以便获得更详细的对称平面形状。许多方法处理3D数据依赖于昂贵的3D卷积。在本文中,我们介绍了一种替代新颖的编码,而是将数据沿高度尺寸切片并顺序地通过2D卷积复发回归方案。该方法还包括可分扩展的最小二乘步骤,允许结束对称对象的完全和部分扫描的结束以准确和快速处理。我们使用这种方法来有效地处理3D输入以设计一种估计平面反射对称的方法。我们表明我们的方法具有与完整合成对象上的平面反射对称估算的任务的最新技术的准确性。此外,我们表明它可以部署在真实世界管道中的部分扫描对象中,以改善3D对象检测器的输出。

Dual Reweighting Domain Generalization for Face Presentation Attack Detection
Authors Shubao Liu, Ke Yue Zhang, Taiping Yao, Kekai Sheng, Shouhong Ding, Ying Tai, Jilin Li, Yuan Xie, Lizhuang Ma
基于域泛化的面部反欺骗方法DG由于他们对看不见场景的鲁棒性而引起了不断的关注。以前的方法在训练过程中不分青红皂白地处理每个样本,并努力提取共同的特征空间以改善泛化。然而,由于复杂和偏置的数据分布,直接对待它们将损坏泛化能力。为了解决这个问题,我们提出了一种新的双重重量域泛化DRDG框架,其迭代地重新重复样品之间的相对重要性,以进一步改善泛化。具体而言,首先提出样品重量模块以识别具有相对大的域偏差的样本,并降低它们对整体优化的影响。然后,引入特征重量模块以通过自蒸馏机构对这些样品聚焦并提取更多域无关的特征。结合域鉴别器,两个模块的迭代促进了广义特征的提取。提出了广泛的实验和可视化以证明我们对艺术竞争对手的状态的方法的有效性和可解释性。

Recognizing Facial Expressions in the Wild using Multi-Architectural Representations based Ensemble Learning with Distillation
Authors Rauf Momin, Ali Shan Momin, Khalid Rasheed
面部表情是最普遍的肢体语言形式,自动面部表情识别是由于不同的不确定性导致的具有挑战性的任务之一。然而,多年来一直是一部积极的研究领域。尽管如此,效率和性能也是构建强大系统的重要方面。我们提出了两种模型,EmoxNet,它是一种学习复杂的面部表示的集合学习技术,以及EmoxnetLite,其是一种蒸馏技术,可用于使用标签使用标签SPACKEN软标签将知识转移到高效的深度神经网络中。有效地实时检测表达式。这两种技术都非常好,其中集合模型EmoxNet有助于在FER2013上实现85.07的测试精度,在RAF DB上的FER2013和86.25测试精度。此外,蒸馏模型EmoxnetLite在FER2013上显示了82.07次测试精度,CER2013在FER2013上进行了注释和81.78 RAF DB的测试精度。

Affective Image Content Analysis: Two Decades Review and New Perspectives
Authors Sicheng Zhao, Xingxu Yao, Jufeng Yang, Guoli Jia, Guiguang Ding, Tat Seng Chua, Bj rn W. Schuller, Kurt Keutzer
图像可以传达富富语,并在观众中诱导各种情绪。最近,随着情绪智能的快速进步和视觉数据的爆炸性增长,广泛的研究工作已经致力于情感图像内容分析AICA。在这项调查中,我们将全面审查最近二十年来AICA的发展,特别是对第三种主要挑战情感差距,感知主观性和标签噪声和缺失的最先进方法。我们首先在AICA中广泛使用的关键情感表示模型和可用数据集的描述,用于执行标签噪声和数据集偏置的定量比较进行评估。然后,我们总结并比较了1个情绪特征提取的代表方法,包括手工制作和深度特征,2个学习方法,主导情绪识别,个性化情绪预测,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值