AI视野·今日CS.CV 计算机视觉论文速览
Tue, 22 Jun 2021 (showing first 100 of 122 entries)
Totally 100 papers
👉上期速览✈更多精彩请移步主页
Daily Computer Vision Papers
Towards Long-Form Video Understanding Authors Chao Yuan Wu, Philipp Kr henb hl 我们的世界提供了永无止境的视觉刺激流,但今天的Vision Systems仅在几秒钟内准确地识别模式。这些系统了解现在,但未能在过去或未来的事件中形成它。在本文中,我们研究了长期的视频理解。我们介绍了一种用于在大型数据集上建模的长表像和开发评估协议的框架。我们表明,现有的艺术状态短期模型是长期的任务的限制。基于目的基于的基于对象的变压器的视频识别架构在7种不同的任务中执行显着更好。它还优于AVA数据集的相当状态。 |
Fast Simultaneous Gravitational Alignment of Multiple Point Sets Authors Vladislav Golyanik, Soshi Shimada, Christian Theobalt 对于任何输入的多个无序点集的同时刚性对准的问题最近引起了越来越多的利益,并且已经新提出了几种可靠的方法。虽然对噪声和聚类异常值非常强大,但目前的方法需要复杂的初始化方案,并且不会很好地扩展到大点集。本文提出了一种新的弹性技术,用于通过将后者解释为刚性地在相互诱导的力场刚性移动的粒子群来同时登记多个点集。由于具有改进的模拟,具有改变的物理定律和与2 d树D的全局乘以连接点交互的加速度是空间维度,我们的多体重力方法MBGA对噪声和缺失数据具有强大的,同时支持比以前的方法更多的大量套件10 5分,更多。在各种实验设置中,MBGA显示在准确性和运行时以若干基线点设定对准方法优于差异。我们使我们的源代码可供社区促进结果的重复性。 |
Simple Distillation Baselines for Improving Small Self-supervised Models Authors Jindong Gu, Wei Liu, Yonglong Tian 虽然大型自我监督模型媲美其监督同行的表现,但小型型号仍然奋斗。在本报告中,我们探讨了通过蒸馏改善小自我监督模型的简单基线,称为Simdis。具体而言,我们介绍了一种确定新技术的离线蒸馏基线,以及一种在线蒸馏基线,其具有最小的计算开销的性能。我们希望这些基线将为相关未来研究提供有用的经验。代码可用 |
Understanding Object Dynamics for Interactive Image-to-Video Synthesis Authors Andreas Blattmann, Timo Milbich, Michael Dorkenwald, Bj rn Ommer 局部挖掘静态场景的效果是什么,我们提出了一种学习在像素级别的局部操纵引起的全局铰接的方法。培训只需要移动物体的视频,但没有物理场景的潜在操纵的信息。我们的生成模型学会将自然对象动态推断为对用户交互的响应,并了解不同对象身体区域之间的相互关系。给定对象的静态图像和像素的局部戳,然后该方法预测对象如何随时间变形。与现有的视频预测工作相比,我们不合成任意现实视频,以便使局部交互式控制变形。我们的模型不限于特定对象类别,可以将动态传输到新颖的未经对象实例上。与普通视频预测框架相比,各种物体的广泛实验展示了我们方法的有效性。项目页面可用 |
TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? Authors Michael S. Ryoo, AJ Piergiovanni, Anurag Arnab, Mostafa Dehghani, Anelia Angelova 在本文中,我们介绍了一种新颖的视觉表示学习,依赖于少数自适应学习令牌,并且适用于图像和视频理解任务。而不是依靠手头设计分割策略来获得视觉令牌并处理大量密集采样的补丁进行关注,我们的方法学会在视觉数据中挖掘重要令牌。这导致有效且有效地找到了一些重要的视觉令牌,并且可以在这种令牌之间进行成像,在这些令牌之间,在更长的视频的时间范围内或图像中的空间内容。我们的实验表现出对图像和视频识别任务的几个具有挑战性的基准的强烈表现。重要的是,由于我们的令牌适应性,我们在显着减少的计算金额下实现竞争结果。 |
The Arm-Swing Is Discriminative in Video Gait Recognition for Athlete Re-Identification Authors Yapkan Choi, Yeshwanth Napolean, Jan C. van Gemert 在本文中,我们将运行步态评估为视频人员在长途运行事件中重新识别的属性。我们表明,与交叉相机检索任务中的基于外观的方法相比,运行步态识别实现了竞争性能,并且步态和外观特征彼此互补。对于步态,在使用二进制步态剪影时,在运行期间的臂摇摆不可区分,因为躯干区域中的模糊。我们建议使用人类语义解析来创建躯干被遗漏的部分步态剪影。储存躯干通过允许臂摆动在正面和倾斜观察角度更明显的情况下,提高了识别结果,这提供了手臂摆动的暗示稍微是个人的。与使用全身剪影相比,实验在CampusRun上增加了3.2地图,并在Casia B的正面和后视图中提高了4.8的准确性。 |
Neural Marching Cubes Authors Zhiqin Chen, Hao Zhang 我们介绍了神经行进立方体NMC,一种数据驱动方法,用于从离散的隐式场中提取三角网格。古典MC由孤立的粗曲面模板定义为单独的立方体。虽然提出了更精致的曲面,但在确定每个立方体中的顶点位置和本地网状拓扑时,它们都制作了启发式假设,例如TriLineARITY。原则上,这些方法中没有一个可以重建几何特征,这些功能揭示了附近的多维数据集之间的一致性或依赖性,因为这种信息未占用,导致真正隐式隐式场的差估计。为了解决这些挑战,我们通过设计在保留几何特征的曲面细分模板中,从深度学习的角度来看,从深度学习的角度来看,并从训练网格学习顶点位置和网状拓扑,以解释附近多维数据集的上下文信息。我们开发了每个立方体参数化的紧凑型参数化以表示输出三角形网格,同时与神经处理兼容,从而可以采用简单的3D卷积网络来训练。我们展示适用于我们设计的每个立方体的所有拓扑案例都可以使用我们的代表轻易导出,并且通过以下几个设计指南,也可以自然有效地获得所得到的曲面。此外,我们的网络了解具有有限的接收领域的本地功能,因此它概括为新的形状和新数据集。我们通过对所有众所周知的MC变体进行定量和定性比较来评估我们的神经MC方法。特别是,我们展示了我们网络恢复了边缘和角落的尖锐功能的能力,是MC及其变体的长期问题。我们的网络还比以前的方法更准确地重建本地网状拓扑。 |
Applying VertexShuffle Toward 360-Degree Video Super-Resolution on Focused-Icosahedral-Mesh Authors Na Li, Yao Liu 随着360度图像视频,增强现实AR和虚拟现实VR的新兴,对分析和处理球面信号的需求得到了巨大的增加。然而,在从球面信号投影的平面信号上支付了大量的努力,这导致一些问题,例如,浪费像素,失真。球形CNN的最近进步已经打开了直接分析球面信号的可能性。然而,他们注意完整的网格,这使得由于极大的带宽要求,处理现实世界应用中的情况不可行。为了解决与360度视频流和节省计算相关的带宽浪费问题,我们利用聚焦的ICOSAHEDRAL网格来表示一个小区域并构造矩阵以将球面内容旋转到聚焦网格区域。与UGSCNN中引入的原始Meshconv转置操作相比,我们还提出了一种新型的顶点动手操作,可以显着提高性能和效率。我们进一步应用于超分辨率模型的提出方法,这是第一个提出的球形超分辨率模型,该模型直接在360度数据的球形像素的网状表示上操作。为了评估我们的模型,我们还收集一组高分辨率360度视频来生成球形图像数据集。我们的实验表明,与使用简单的Meshconv转置操作的基线球面超分辨率模型相比,我们所提出的球形超分辨率模型在性能和推理时间方面实现了显着的好处。总之,我们的模型在360度输入上实现了大量的超级分辨率性能,平均实现了32.79dB的PSNR,当网格上的超级固定16倍顶点时,平均达到平均。 |
VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning Authors Hao Tan, Jie Lei, Thomas Wolf, Mohit Bansal 视频理解依赖于认识到全局内容和建模其内部连接,例如,因果关系,运动和时空时间对应。要了解这些交互,我们应用一个掩模,然后在通过VQ VAE生成的离散视频令牌上预测预训练任务。与文本令牌更独立的语言不同,邻近的视频令牌通常具有很强的相关性,例如,连续的视频帧通常看起来非常相似,因此均匀掩蔽单个令牌将使任务过于微不足道以学习有用的表示。要处理这个问题,我们提出了一个块明智的掩蔽策略,在那里我们在空间和时间域中掩盖了邻近的视频令牌。我们还通过预测从同一视频采样视频剪辑是通过预测视频剪辑是否从相同的视频采样来进一步捕获全局内容的增强无变对比度学习方法。我们预先培训我们的模型对未婚的视频,并显示我们的预训练模型可以在若干视频理解数据集中达到最先进的结果,SSV2,Diving48。最后,我们提供了对模型可扩展性和预训练方法设计的详细分析。代码已发布 |
Reliability and Validity of Image-Based and Self-Reported Skin Phenotype Metrics Authors John J. Howard, Yevgeniy B. Sirotin, Jerry L. Tipton, Arun R. Vemury 随着采用面部识别系统的增加,重要的是确保跨人口统计群体的足够性能。最近,在探索性能差异时,已经提出了诸如皮肤音调的表型,例如传统比赛类别的优越替代品。但是,关于如何更广泛地在生物识别性能或AI评估中适当地测量肤色的共识。在这项研究中,我们探讨了使用设计用于测量人体皮肤的设备收集的图像和地面真理皮肤读取的面部区域亮度措施FALMS之间的关系。来自同一个人的不同图像估计的FALMS相对于地面真相粉的不同形象变化。这种变化仅通过对采集相机,背景和环境的更大控制来减少。接下来,我们将地面真相粉碎至Fitzpatrick皮肤类型使用标准,亲自,医学调查和表现出FST对皮肤色调的不太令人难以理解。最后,我们展示了对FALM的噪音有多估计导致对人口差异的解释因素的错误导致错误。这些结果表明,生物识别性能评估的肤色测量必须来自客观,特征和控制来源。此外,尽管这是目前实践的方法,但估计来自不受控制的图像的FST类别和Falmm,并不能提供适当的肤色测量。 |
Can poachers find animals from public camera trap images? Authors Sara Beery, Elizabeth Bondi 为了保护含有敏感,高目标物种的相机陷阱数据的位置,许多生态学家在发布数据时随机地对相机的纬度和经度进行了随机。例如,它们可以在其网络中的每个相机的真正相机位置的1km半径内发布随机位置。在本文中,我们调查了Geo混淆维护摄像机陷阱位置隐私的稳健性,并通过案例研究表明,一些简单,直观的启发式和公开可用的卫星栅格可用于减少87的可能包含相机的区域假设在1KM内随机混淆,表明Geo混淆可能比以前认为的效果较低。 |
Multi-VAE: Learning Disentangled View-common and View-peculiar Visual Representations for Multi-view Clustering Authors Jie Xu, Yazhou Ren, Huayi Tang, Xiaorong Pu, Xiaofeng Zhu, Ming Zeng, Lifang He 多视图聚类,长期站立和重要的研究问题,重点介绍从不同视野中采矿的互补信息。然而,现有的工作通常融合了多个视图表示或在共同的特征空间中处理群集,这可能导致其纠缠,特别是对于视觉表示。为了解决这个问题,我们通过学习解除吊牌的视觉表示,提出了一种新的基于VAE的多视图聚类框架多VAE。具体地,我们在生成模型中定义了一个视图共同变量和多视图特殊变量。在视图之前的常见变量obeys大约是离散的gumbel softmax分布,引入了提取多个视图的公共集群因子。同时,视图之前的特殊变量遵循连续高斯分布,其用于表示每个视图的特殊视觉因素。通过控制互信能力来解开视图公共和观看特殊表示,可以分离多个视图的连续视觉信息,从而可以有效地开采它们的公共离散集群信息。实验结果表明,与现有技术的状态相比,多维vae享有脱屑和可解释的视觉表现,同时获得优异的聚类性能。 |
Temporal Early Exits for Efficient Video Object Detection Authors Amin Sabet, Jonathon Hare, Bashir Al Hashimi, Geoff V. Merrett 根据资源约束,将基于图像的对象检测器传输到视频域保持挑战。以前的努力利用光学流动以允许传播的不变特征,然而,当使用来自监视等应用的慢慢改变场景时,开销是相当大的。在本文中,我们提出了暂时的早期退出以降低每帧视频对象检测的计算复杂性。具有低计算开销的多个时间早期出口模块插入骨干网络的早期层,以识别连续帧之间的语义差异。只有在识别为上次帧的语义变化时,否则才需要完全计算,否则,重复使用先前帧的检测结果。 CDNET的实验表明,与现有方法相比,我们的方法明显降低了每帧视频对象检测的计算复杂性和每帧视频对象检测的比较,其在地图中可接受的2.2中的2.2。 |
TNT: Text-Conditioned Network with Transductive Inference for Few-Shot Video Classification Authors Andr s Villa, Juan Manuel Perez Rua, Vladimir Araujo, Juan Carlos Niebles, Victor Escorcia, Alvaro Soto 最近,很少拍摄的学习得到了越来越兴趣。现有的努力一直专注于图像分类,很少有人尝试致力于较少的射击视频分类问题。这几次尝试旨在有效利用视频中的时间维度,以便在低数据制度中学习。但是,它们在很大程度上忽略了视频的一个关键特征,这对于很少的射击识别来说至关重要,即视频通常伴随着丰富的文本描述。在本文中,我们第一次提出利用这些人提供文本描述作为培训几次拍摄视频分类模型时的特权信息。具体来说,我们制定了基于文本的任务调节器,以使视频功能调整到几个镜头学习任务。我们的模型遵循转换设置,其中查询样本和支持文本描述可用于更新支持集类原型,以进一步提高模型的任务适应能力。我们的模型在很少拍摄视频动作分类中获得了四个具有挑战性的基准测试的最新性能。 |
3D Shape Registration Using Spectral Graph Embedding and Probabilistic Matching Authors Avinash Sharma, Radu Horaud, Diana Mateus 我们解决了3D形状注册的问题,并提出了一种基于光谱图理论和概率匹配的新技术。 3D形状分析的任务涉及跟踪,识别,注册等。在单个框架中分析3D数据仍然是考虑用不同采集设备收集的数据的大可变性的具有挑战性的任务。 3D形状注册是一个如此有挑战性的形状分析任务。本章的主要贡献是通过将光谱图与拉普拉斯嵌入匹配匹配来将光谱图匹配方法扩展到非常大的图表。由于图形的嵌入式表示通过维度降低获得,因此我们声称现有的基于光谱的方法不容易适用。我们讨论了对精确和不精确的图形同构问题的解决方案,并调查组合图拉普拉斯的主要光谱特性我们提供了对通勤时间嵌入的新颖分析,使我们能够在图表的PCA方面解释后者,以及选择相关嵌入式度量空间的适当维度,我们推导出一个通勤时间嵌入的单元超球标准化,允许我们使用不同的采样注册两个形状,我们提出了一种新颖的方法来查找使用EIGENSINGE的特征值特征序列命令和特征向量标志。使用EIGENSIGNATE直方图,其不变于等距形状变形,并且在光谱图匹配框架中很好地适合,并且我们使用期望最大化点登记算法呈现概率形状匹配配方,该标志配准算法在对准的对齐和向顶点分配找到顶点之间交替。 |
Automatic Plant Cover Estimation with CNNs Automatic Plant Cover Estimation with Convolutional Neural Networks Authors Matthias K rschens, Paul Bodesheim, Christine R mermann, Solveig Franziska Bucher, Mirco Migliavacca, Josephine Ulrich, Joachim Denzler 监测植物对环境变化的反应对于植物生物多样性研究至关重要。然而,这目前仍然是由该领域的植物学家手动手动完成。这项工作非常费力,并且所获得的数据是估计估计工厂覆盖的标准化方法,通常是主观的并且具有粗略的时间分辨率。为了解决这些警告,我们研究了使用卷积神经网络CNNS的方法,以自动提取来自图像的相关数据,专注于9种草本植物的植物群落组成和物种覆盖范围。为此,我们调查了几种标准的CNN架构和不同的预先预防方法。我们发现,我们在使用自定义CNN的较高图像分辨率下擅长先前的方法,使用自定义CNN具有5.16的平均绝对误差。除了这些调查外,还基于植物覆盖图像的时间方面进行误差分析。该分析深入了解自动方法的问题,如遮挡和可能因时间变化引起的错误分类。 |
OadTR: Online Action Detection with Transformers Authors Xiang Wang, Shiwei Zhang, Zhiwu Qing, Yuanjie Shao, Zhengrong Zuo, Changxin Gao, Nong Sang 最近的在线动作检测方法倾向于施加经常性神经网络RNN以捕获远程时间结构。然而,RNN遭受不行性和梯度消失,因此很难得到优化。在本文中,我们提出了一种基于名为OADTR的变换器的新编码器解码器框架来解决这些问题。附带任务令牌的编码器旨在捕捉历史观察之间的关系和全局相互作用。解码器通过聚合预期的未来剪辑表示来提取辅助信息。因此,OADTR可以通过编码历史信息并同时预测未来的上下文来识别当前的动作。我们在三个具有挑战性的数据集HDD,TVSERIES和THUMOS14上广泛评估了所提出的OADTR。实验结果表明,OADTR比基于RNN的方法更高的训练和推广速度,并且在地图和MCAP方面显着优于现有技术的状态。代码可用 |
FP-Age: Leveraging Face Parsing Attention for Facial Age Estimation in the Wild Authors Yiming Lin, Jie Shen, Yujiang Wang, Maja Pantic 基于图像的年龄估计旨在预测来自面部图像的人员年龄。它用于各种现实世界应用。尽管结束了深度模型的年龄估计对基准数据集的令人印象深刻的成果,但由于头部姿势,面部表情和闭塞症引起的挑战,它们在野外的性能仍然留下了很多因素的改善。为了解决这个问题,我们提出了一种简单但有效的方法,将面部语义明确地将面部语义纳入年龄估计,因此该模型将学会从未对齐的面部图像中正确专注于最具信息丰富的面部部件,而不管头部姿势和非刚性变形如何。为此,我们设计了一个基于面的基于脸部解析的网络,以学习不同尺度的语义信息和新的面部解析注意力模块,以利用这些语义特征来实现年龄估计。为了评估我们在狂野数据中的方法,我们还介绍了一个新的挑战大规模基准,称为IMDB清洁。使用约束群集方法,通过SEMI自动清洁Noisy IMDB Wiki数据集来创建此数据集。通过对IMDB的全面实验,在IMDB干净和其他基准数据集下,在数据集中的跨数据集和跨数据集评估协议下,我们表明我们的方法始终如一地优于所有现有的年龄估计方法,并实现了最新的最新性能。据我们所知,我们的工作提出了利用面临的第一次尝试,以实现语义意识年龄估计,这可能会鼓励其他高级面部分析任务。 |
Classification of Documents Extracted from Images with Optical Character Recognition Methods Authors Omer Aydin 在过去十年中,机器学习方法给了我们无人驾驶汽车,语音识别,有效的网络搜索,以及更好地了解人类基因组。机器学习今天非常常见,它每天使用数十次,可能在不知不觉中使用。试图教导机器一些过程或某些情况可以使它们预测人类脑难以预测的一些结果。这些方法也有助于我们做一些在短时间内与人类活动发生的操作。由于这些原因,机器学习今天如此重要。在这项研究中,组合了两种不同的机器学习方法。为了解决现实世界问题,稿件文档首先转移到计算机,然后分类。我们使用了三种基本方法来实现整个过程。手写或印刷文件已被扫描仪或数码相机数字化。这些文档已经处理了两个不同的光学字符识别OCR操作。在该生成的文本之后通过使用Naive Bayes算法进行分类。所有项目都在Windows操作系统上的Microsoft Visual Studio 12平台中编程。 C编程语言用于研究的所有部分。此外,使用了一些准备的代码和DLL。< |