AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。
CVPR 2021 论文推荐
CVPR,英文全称Conference on Computer Vision and Pattern Recognition,中文全称是国际计算机视觉与模式识别会议。该会议是由IEEE主办的一年一度的全球学术性顶级会议,会议的主要内容是计算机视觉与模式识别技术,每年CVPR都会有一个固定的研讨主题。2021年CVPR共有7015篇有效投稿,其中进入Decision Making阶段的共有约5900篇,最终有1663篇突出重围被接收,录用率大概为23.7%(1663/7015)。
Coarse-Fine Networks for Temporal Activity Detection in Videos
论文链接:https://www.aminer.cn/pub/603f600991e011cacfbda2cc/?conf=cvpr2021
推荐理由: 在本文中,作者介绍了"粗细网络",这是一种双流架构,它得益于对时间分辨率的不同抽象,以学习长期运动的视频表示。传统的视频模型以一个(或几个)固定的时间分辨率处理输入,没有任何动态帧选择。然而,作者认为,处理多个时间分辨率的输入,并通过学习估计每一帧的重要性来动态地进行处理,可以在很大程度上改善视频表示。为此,该工作提出了(1) “Grid Pool”,一个学习的时空降采样层来提取粗特征;(2) “Multi-stage Fusion”,一个时空注意力机制来融合细粒度的上下文和粗特征。作者展示了其方法能够在包括猜字游戏在内的公共数据集中,以显著减少计算和内存占用的方式优于目前最先进的动作检测方法。
Meta3D: Single-View 3D Object Reconstruction from Shape Priors in Memory
论文链接:https://www.aminer.cn/pub/5e67655391e011e0d1791148/?conf=cvpr2021
推荐理由: 因为要重建的对象存在不可见的部分,从单视角RGB图像中进行三维形状重建是一个非确定的问题。现有的方法大多依靠大规模数据,通过调整重建模型的参数来获得形状前值。然而,因为先验信息无法完全保留或有效应用,这些方法可能无法处理重物遮挡和嘈杂背景的情况。在本文中,作者率先开发了一个基于内存的元学习框架,以用于单视角三维重建。其中,一个写控制器被设计用来从图像中提取形状判别特征,并将图像特征及其相应的卷存储到外部存储器中。同时,作者提出了一个读控制器,依次编码与输入图像相关的形状前值,并预测形状特异的细化器。实验结果表明,该工作的Meta3D通过显式保留形状前值,对于极度困难的情况,能够以较大的优势优于最先进的方法。
AMiner,一个具有认知智能的学术搜索引擎:https://www.aminer.cn/
#AMiner# #论文#