
每天一篇论文
文章平均质量分 75
元宇宙MetaAI
害怕的不是从头开始,而是从未开始!
展开
-
MLP-Mixer简介和一些想法
最近Google Research的Brain Team又发表了重磅文章,纯MLP架构------MLP-Mixer,这个团队即原来的ViT团队,实力强横。作者通过与ViTs模型(包含ViT、HaloNet、BiT)和CNN模型(NFNet、MPL、ALIGN等)做了对比,效果还是不错的。总体设计思路 整体架构如下图所示: 其整体思路为:先将输入图片拆分成多个patches(每个patche之间不重叠),通过Per-patch Fully-connected层的操作将每个patch转载 2021-05-12 09:41:20 · 712 阅读 · 0 评论 -
Nerf系列: 可用于多视角生成的场景表示
了解更多关于《计算机视觉与图形学》相关知识,请关注公众号:计算机视觉与图形学实战下载我们视频中代码和相关讲义,请在公众号回复:计算机视觉课程资料 Nerf: 可用于多视角生成的场景表示 一、初代Nerf 《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》一文提出了一种基于光照模型隐式场表示的场景表示方法Nerf,用于转载 2021-03-19 22:12:40 · 4367 阅读 · 1 评论 -
论文阅读整理
Implicit Functions in Feature Space for 3D Shape Reconstruction and Completion原创 2021-01-28 20:40:36 · 462 阅读 · 0 评论 -
Towards Universal Object Detection by Domain Attention
项目链接:http://www.svcl.ucsd.edu/projects/universal-detection/摘要 尽管增加提供在普遍代表在视觉识别,较少有在目标检测。在这边文章中,我们提出了一个高效和有效的普遍目标检测系统,这是有能力工作在各种图像区域,从人脸和交通信号到当代CT图像。不像多任务模型,这个普遍模型不需要先验知识,在这个区域中感兴趣的。这个被完成是通过...原创 2019-07-11 09:27:20 · 379 阅读 · 0 评论 -
Dissecting Person Re-identification from the Viewpoint of Viewpoint
开源代码:https://github.com/sxzrt/Dissecting-Person-Re-ID-from-the-Viewpoint-of-Viewpoint摘要 变化在视觉因素,例如视点,姿态,光照和背景,通常视为最重要挑战是在人的重识别上。尽管知识这些因素是影响的,数量研究在他们怎样影响重识别系统仍然是短缺的。为尝试在这个科学挑战,这篇文章及早尝试研究一个特别...原创 2019-07-01 09:45:33 · 535 阅读 · 0 评论 -
GS3D: An Efficient 3D Object Detection Framework for Autonomous Driving
摘要 我们展示了一个有效的3D目标检测框架,基于一个单RGB图,在自动驾驶方案。我们努力去提取潜在的3D信息在一个2D图像,以及确定精确的3D框目标,没有使用点云或者立体数据。利用现成的2D目标检测器,我们提出了一个巧妙的方法来有效获得一个粗长方体对每一个预测的2D框。这个粗长方体有足够的精度去引导我们决定3D框的目标通过定义。相对于先前先进的方法,只是使用特征提取从2D框来定义框...原创 2019-07-06 16:14:02 · 1208 阅读 · 0 评论 -
Learning by Asking Questions
论文地址:http://openaccess.thecvf.com/content_cvpr_2018/papers/Misra_Learning_by_Asking_CVPR_2018_paper.pdf摘要 我们介绍一个交互式的学习框架来发展和测试智能视觉系统,叫做学习通过询问(LBA)。我们挖掘LBA在内容上,关于视觉问题回答(VQA)任务。LBA不同于标准的VQA训练,...原创 2019-07-18 11:33:10 · 458 阅读 · 1 评论 -
A Style-Based Generator Architecture for Generative Adversarial Networks
论文链接:http://openaccess.thecvf.com/content_CVPR_2019/papers/Karras_A_Style-Based_Generator_Architecture_for_Generative_Adversarial_Networks_CVPR_2019_paper.pdf项目链接:https://github.com/NVlabs/stylegan...原创 2019-07-16 08:41:35 · 906 阅读 · 0 评论 -
YUVMultiNet Real-time YUV multi-task CNN for autonomous driving
论文地址:https://arxiv.org/pdf/1904.05673.pdf摘要 在这篇文章中,我们提出了一个多任务卷积神经网络(CNN)框架优化对一个低功率汽车级Soc。我们介绍一个网络基于一个统一框架,其中编码是分享在两个任务检测和分割。这个提出的网络运行达到25帧在1280*1280像素上。我们主要讨论这个方法使用去优化网络框架,例如使用本地YUV图直接地,优化层...原创 2019-07-07 10:18:56 · 619 阅读 · 0 评论 -
Monocular Total Capture: Posing Face, Body, and Hands in the Wild ∗
论文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Xiang_Monocular_Total_Capture_Posing_Face_Body_and_Hands_in_the_CVPR_2019_paper.pdf项目地址:https://github.com/CMU-Perceptual-Computing-Lab/Mon...原创 2019-07-19 09:42:59 · 1253 阅读 · 0 评论 -
Contrast Invariant SNR and Isotonic Regressions
文章链接:https://link.springer.com/content/pdf/10.1007%2Fs11263-019-01161-9.pdf项目链接:https://github.com/pierre-weiss/contrast_invariant_snr摘要 我们设计了一个图像质量测量独立的对比改变,它被定义为一系列改变保护和治理在水平线的一张图像。这个问题...原创 2019-07-17 09:06:40 · 295 阅读 · 3 评论 -
End-to-end Active Object Tracking via Reinforcement Learning
论文地址:http://proceedings.mlr.press/v80/luo18a/luo18a.pdf摘要我们研究运动目标跟踪,在一个跟踪者作为输入的视觉观察(帧序列)以及处理相机控制信号(移动向前,左拐)。卷积方法处理跟踪和相机控制独立地,正在挑战联合调优。它也导致一些人们支持对于标记和一些经验试验和错误在真实世界中。为了解决这个问题,我们提出,在这篇文章中,一个端到端的解决通过...原创 2019-07-20 17:56:32 · 638 阅读 · 0 评论 -
Video Enhancement with Task-Oriented Flow
项目地址:http://toflow.csail.mit.edu/摘要 一些视频增强算法依靠光流来存储帧在一个视频序列中。精确光流估计然而是很难处理的;以及光流它自己本身是一个局部最优的展现对于特别视频处理任务。在这篇文章中,我们提出了任务导向流(TOFlow),一个动作展示学习在一个自监督,特定任务方式。我们设计了一个神经网络使用一个训练的动向估计组成和一个视频处理组成,以...原创 2019-07-15 11:52:45 · 1505 阅读 · 0 评论 -
An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition
论文链接:https://arxiv.org/pdf/1902.09130.pdf摘要 基于骨架的动作识别是一个非常重要的任务,需要足够的理解移动特点一个人活动,从给定的骨架序列。最近的研究已经展示,探索空间和时间的特征在骨架序列上,是非常重要的对于这个任务。尽管,如何去有效去提取有判断力的空间和时间特征仍然是一个具有挑战的问题。在这篇文章中,我们提出一个新颖的注意增强图卷积L...原创 2019-06-30 10:55:24 · 2867 阅读 · 10 评论 -
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
open source:https://github.com/deepinsight/insightface摘要 一个主要的挑战在特征学习,使用深度卷积神经网络(DCNNs)对大尺度人脸识别,是设计合适loss函数,它能够增强区别。中心损失距离在深度特征和他们相应的类中心在欧几里得空间去实现类内紧度。球体猜测这个线性转换矩阵在最后全卷积层,能够使用作为一个表示类中在欧几里得空...原创 2019-07-05 09:26:30 · 1454 阅读 · 0 评论 -
Machine learning:Trends, perspectives, and prospects
导读 尽管实际的挑战,我们决策者之间的信息交流、公开的数据集以及机器学习能力,将会导致编程具有洞察力的设计,可以在保护隐私达到一个目标平衡,坚信公平将会给科学研究、个人隐私、公共健康带来益处。我们承诺隐私和公平是一直坚持的,但我们个人d的决策选择必须平衡他们,并坚持新的技术来强化我们的知识。摘要 机器学习的主要解决问题是,如何去建立计算通过实验提高自动化。它...原创 2019-06-03 01:04:56 · 708 阅读 · 0 评论 -
Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking
Project Page::http://www.dabi.temple.edu/~hbling/code/CRPN/crpn.htm摘要 最近,区域建议网络(RPN)已经与Siamese网络结合进行跟踪操作,并展现出极高的精度和高效。然而,先前提出一个阶段Siamese-RPN跟踪器在相似干扰器和大尺度变化情况下,表现性能差。基于这些问题,我们提出了一个多阶的跟踪框架,Siam...原创 2019-06-25 19:56:51 · 674 阅读 · 0 评论 -
GA-Net: Guided Aggregation Net for End-to-end Stereo Matching
Code:https://github.com/feihuzhang/GANet摘要 在立体匹配任务中,匹配损失配准是至关重要的在传统方法和深度神经网络模型中,为了精确估计差异。我们提出了两个新颖的神经网络层,目的去捕获一个局部和全局图像的成本依赖性。第一个是半全局聚集层,它是半监督匹配的一个可微近似,第二个是局部引导聚集层,它是使用了一个传统的损失滤波策略来简化结构。 ...原创 2019-06-26 11:47:43 · 3855 阅读 · 1 评论 -
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigatio
摘要 视觉语言导航(VLN)的任务是导航一个具体的代理,在真实的3D环境中执行自然语言命令。在这篇文章,我们研究如何解决这个任务中三个至关重要的挑战:跨交叉模态基标对准,不适定反馈,泛化问题。首先,我们提出了一个新颖基于强化学习跨模态匹配(RCM)方法,执行跨交叉模态基标对准在局部和全局中,通过强化学习(RL)。另外,一个匹配评价是用提供一个内在奖励来鼓励在指令和轨迹全局匹配,一...原创 2019-06-26 16:13:46 · 1102 阅读 · 0 评论 -
BAD SLAM: Bundle Adjusted Direct RGB-D SLAM
开源代码:http://www.eth3d.net/摘要 即时定位和重建(SLAM)系统的一个关键组成是加入3D图评估和相机轨迹的优化。捆绑调整(BA)对于这个是黄金标准。由于在稠密RGB-D SLAM中大量的变量,先前的工作集中在BA近似。相反,在这篇文章中,我们提出一个新颖快速直接BA方案,来应用到一个实时稠密的RGB-D SLAM 算法。 另外,我们展示...原创 2019-06-27 11:51:12 · 1597 阅读 · 0 评论 -
Unsupervised Person Re-identification by Soft Multilabel Learning
论文地址:https://arxiv.org/pdf/1903.06325.pdf项目地址:https://github.com/KovenYu/MAR摘要 虽然无监督行人重识别(RE-ID)已经增加研究注意,由于它潜在去解决可扩展性问题在监督重识别模型,它是一个非常具有挑战去学习差别信息在缺乏成对标签通过不相交相机视角。为克服这个问题,我们提出一个深度模型来软多标签学习...原创 2019-07-08 20:02:24 · 555 阅读 · 0 评论 -
A Survey on Transfer Learning
摘要 在一些机器学习和数据挖掘算法的一个主要假设是训练和将来数据必须是有相同特征空间和有相同分布。然而,在一些现实世界应用中,这个假设是不成立的。例如,我们有时候有一个分类任务对一个领域感兴趣,但我们只有另外一个感兴趣领域的有效训练数据,后者的数据可能是不同特征空间或者不同数据分布。在这种情况下,如果知识迁移可以成功,将极大提高学习的性能,通过避免较昂贵的数据标签支持。在最近几年...原创 2019-06-28 20:22:18 · 632 阅读 · 0 评论 -
A Simple Pooling-Based Design for Real-Time Salient Object Detection
实验室主页:http://mmcheng.net/poolnet/代码地址 :https://github.com/backseason/PoolNet论文地址 :https://arxiv.org/pdf/1904.09569.pdf摘要 我们解决的问题是最突出的目标检测,通过研究如何去扩大在卷积神经网络中池化的角色。基于U-shape架构,我们首先建立了一个...原创 2019-07-13 17:30:34 · 222 阅读 · 0 评论 -
Fast Online Object Tracking and Segmentation: A Unifying Approach
项目地址:https://github.com/foolwood/SiamMask论文地址:https://arxiv.org/abs/1812.05050主页地址:http://www.robots.ox.ac.uk/~qwang/SiamMask/摘要 在这篇文章中,我们插入如何去进行在视觉目标跟踪和半监督视频目标分割,在实时,使用一个简单的方法。我们的方法,称为S...原创 2019-07-10 09:23:29 · 781 阅读 · 0 评论 -
Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Dr
项目链接:https://mileyan.github.io/pseudo_lidar/代码链接:https://github.com/mileyan/pseudo_lidar摘要 3D目标检测是一个重要的任务在自动驾驶领域。最近高精度检测率技术清单中,提供3D输入数据被提供从精确但是昂贵的LiDAR(激光雷达)技术。方法基于便宜的单目或者立体图像数据,直到现在,结果全部都...原创 2019-07-04 20:45:22 · 2364 阅读 · 0 评论 -
Bag of Tricks for Image Classification with Convolutional Neural Networks
项目地址:https://github.com/dmlc/gluon-cv论文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/He_Bag_of_Tricks_for_Image_Classification_with_Convolutional_Neural_Networks_CVPR_2019_paper.pdf摘要...原创 2019-07-14 16:24:23 · 193 阅读 · 0 评论 -
Reducing the Dimensionality of Data with Neural Networks(1)
摘要 通过训练一个多层的神经网络可以将多维数据转化为一个低维编码,使用一个小的中心层可以重建高维的输入向量。在自编码网络中,梯度下降被用来微调网络的权重,但是梯度下降往往在初始权重接近最优解的情况下,才会表现的比较好。我们提出了一个有效初始化权重的方法,使自编码网络学习低维编码的性能优于PCA的数据降维。主要内容 降维有助于分类、可视化、传递、存储高维的数据...原创 2019-05-30 20:25:56 · 647 阅读 · 0 评论