
计算机视觉 | 顶会论文研读、源代码分析
文章平均质量分 91
研读计算机视觉相关顶会论文,CVPR、ICCV等,也有部分项目开源到Github上,论文、源码、数据集。
链接:https://github.com/Charmve/Mirror-Glass-Detection
Charmve
现就职于国内某top自动驾驶独角兽公司,量产自动驾驶系统架构师,专注于自动驾驶感知模块研发,有多年量产经验。同时,也是迈微AI研习社公众号主理人、优快云博客专家、阿里云社区专家博主,多次对外主题演讲和报告。对国内自动驾驶产品较为了解,熟悉自动驾驶系统全栈研发体系。
展开
-
《手把手带你开始计算机视觉项目实战》专栏概述 | 实战教程,开放源码
只是看理论,却总也学不会?看不懂,又总没有进度?如果你也有这类问题,那你来看看这个专栏。以实际项目为导向,亲自动手实践,从简单的手写字识别、人脸检测、图像分类开始,逐渐学习掌握实例分割、目标检测、车道线检测等进阶技能。学习有回馈、有成就感,你才能继续下去。原创 2020-12-09 17:13:25 · 6406 阅读 · 2 评论 -
多模态最强综述,浅显易懂、娓娓道来 Generalized Visual Language Models
多年来,人们一直在研究处理图像以生成文本,例如图像字幕和视觉问答。传统上,此类系统依赖对象检测网络作为视觉编码器来捕获视觉特征,然后通过文本解码器生成文本。鉴于现有的大量文献,在这篇文章中,我想只关注解决视觉语言任务的一种方法,即扩展预训练的通用语言模型以能够消费视觉信号。我将此类视觉语言模型 (VLM) 大致分为四个类别:将图...原创 2022-09-06 19:00:00 · 702 阅读 · 0 评论 -
CVPR 2022 | FAIR提出MaskFeat:自监督视觉预训练新方法!灵感之一来自16年前CVPR论文...
近日,北大校友、约翰·霍普金斯大学博士生提出了一种新的方法:MaskFeat,摘下12个SOTA!这是一个能用于视频模型的自监督预训练方法:掩码特征预测(MaskFeat)。Masked Feature Prediction fo...原创 2022-06-11 19:32:23 · 572 阅读 · 0 评论 -
从感知机到Transformer:一文概述深度学习发展史!
这篇文章从感知机开始,按照时间顺序回顾了深度学习的历史。1958 年:感知机的兴起1958 年,弗兰克 · 罗森布拉特发明了感知机,这是一种非常简单的机器模型,后来成为当今智能机器的核心和起源。感知机是一个非常简单的二元分类器,可以确定给......原创 2022-06-09 19:00:51 · 539 阅读 · 0 评论 -
李飞飞团队提出零样本泛化的技术,性能超越SOTA!
没错!又是李飞飞!走在队伍前面的,是来自斯坦福大学的博士,李飞飞的门生!先来看看李飞飞团队这次在arXiv上发表了的论文题目:SECANT:用于视觉策略零样本泛化的自专家克隆废话少说,给大家介绍一下这篇论文的大致内容。论文介绍简要介绍强化学习中的泛化(generalization),是指通过不断跟环境交......原创 2022-04-28 19:34:07 · 294 阅读 · 0 评论 -
NeurIPS 2021 Spotlight | 准确、快速、内存经济,新框架MEST实现边缘设备友好的稀疏训练...
美国东北大学王言治教授、林雪教授研究组与威廉玛丽学院任彬教授研究组共同提出了一种稀疏训练新框架MEST,有望在边缘设备上实现准确、快速以及内存经济的稀疏训练。在剪枝技术被成功应用于神经网络的压缩和加速之后,稀疏训练在近年来受到了越来越多研究者的关注,即如何从零开始直接训练一个高质量的稀疏神经网络。稀疏训......原创 2022-04-04 19:48:39 · 509 阅读 · 0 评论 -
来看看几篇Nature上的GNN吧~
随着该领域的成熟,图神经网络论文的数量也在增长,作者仔细研究了一些科学应用,并收集了几篇发表在Nature上的GNN论文。我们周围的很多信息都可以用图表来表示。一个例子是城市道路网络,其中交叉口是节点,道路是链接。另一个是调控网络,它描述了不同基因如何相互作用以增强或抑制某些细胞功能。图神经网络(GNN)可以处理基于图的信息以进行预测。在在 2......原创 2022-03-28 19:00:00 · 277 阅读 · 0 评论 -
CV往哪卷?李飞飞指出三颗「北极星」:具身智能,视觉推理和场景理解
ImageNet见证了计算机视觉发展的辉煌历程,在部分任务性能已超越人类的情况下,计算机视觉的未来又该如何发展?李飞飞最近发文指了三个方向:具身智能,视觉推理和场景理解。在深度学习革命进程中,计算机视觉依托大规模数据集ImageNet,在图像分类、目标检测......原创 2022-05-16 19:00:45 · 222 阅读 · 0 评论 -
微软黄学东团队发布 i-Code 成为多模态视频理解模型新标杆!
黄学东领衔,微软 Azure 认知服务研究团队重磅发布「视觉-语言-语音」多模态预训练模型 i-Code。在 5 项多模态视频理解任务以及 GLUE NLP 任务上树立了业界新标杆!人类的智能涉及多个模态:我们整合视觉、语言和声音信号,从而形成对世界全面的认识。然而,目前大多数的预训练方法仅针对一到两种模态设计。在本文中,我们提出了一种多模态自监督预训练框架「i-Code......原创 2022-05-25 19:00:32 · 413 阅读 · 0 评论 -
CVPR 2022|解耦知识蒸馏!旷视提出DKD:让Hinton在7年前提出的方法重回SOTA行列!...
与主流的feature蒸馏方法不同,本研究将重心放回到logits蒸馏上,提出了一种新的方法「解耦知识蒸馏」,重新达到了SOTA结果,为保证复现该研究还提供了开源的蒸馏代码库:MDistiller。1 研究摘要近年来顶会的 SOTA 蒸馏方法多基于 CNN 的中间层特......转载 2022-06-08 19:00:12 · 698 阅读 · 2 评论 -
文本生成图像这么火,你需要了解这些技术的演变
大家好,我是Charmve!目前多模态任务成为行业热点,今天将带大家梳理一下较为优秀的多模态文本图像模型:DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点,及其迭代关系。OpenAI 最近发布了DALL·E 2系统,在 AI 界引发了「地震」,该系统能够根据文本描述创建图像。这是 DALL·E 系统的第二个版本,第一个版本是在近一年......原创 2022-06-06 19:00:50 · 258 阅读 · 0 评论 -
AAAI 2022 | 在图像级弱监督语义分割这项CV难题上,字节跳动做到了性能显著提升...
论文提出了一种面向图像级标签的弱监督语义分割的激活值调制和重校准方案。该方法利用注意力调制模块挖掘面向分割任务的目标区域,通过补偿分支产生的CAM图校准基准的响应图,得到图像的伪标签,该方法在PASCAL VOC2012数据集上获得了SOTA性能。图像级弱监督语义分割(WSSS)是一项基本但极具挑战性的...原创 2022-03-22 19:02:39 · 519 阅读 · 0 评论 -
比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA
mask-and-predict 的方法可能会成为计算机视觉领域的新流派。自监督预训练在自然语言处理方面取得了惊人的成...原创 2022-03-18 19:12:15 · 196 阅读 · 0 评论 -
一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,实现SOTA...
来自清华大学、商汤科技等机构的研究者们提出一种简洁而有效的梯度形式——UniGrad,不需要复杂的 memory ba...转载 2022-03-16 20:43:19 · 273 阅读 · 0 评论 -
单GPU每秒76帧,重叠对象也能完美分割,多模态Transformer用于视频分割效果惊艳...
视频分割效果优于所有现有方法,这篇入选CVPR 2022的论文是用Transformer解决CV任务的又一典范。原创 2022-03-10 19:00:00 · 319 阅读 · 0 评论 -
视频理解综述:动作识别、时序动作定位、视频Embedding
本文将介绍视频理解中的三大基础领域:动作识别(Action Recognition)、时序动作定位(Temporal Action Localization)和视频 Embedding。原创 2021-11-25 19:00:00 · 937 阅读 · 0 评论 -
加速100倍,性能媲美SOTA,浙大提出无数据知识蒸馏新方法FastDFKD
在无法获取到原始训练数据的情况下,你可以尝试一下这种新型蒸馏算法 FastDFKD,数据合成与现有的生成方法相比,可以实现 10 倍的加速,与非生成方法相比,甚至可以达到 100 倍以上的加速。转载 2022-01-08 19:00:00 · 280 阅读 · 0 评论 -
升级版NanoDet-Plus来了 | 简单辅助模块加速训练收敛,精度大幅提升
与上一代NanoDet相比,在仅增加1毫秒多的延时的情况下,精度提升了30%。与YOLOv5-n, YOLOX-Nano等其他轻量级模型相比,在精度和速度上也都高了不少!同时NanoDet-Plus改进了代码和架构,提出了一种非常简单的训练辅助模块,使模型变得更易训练!同时新版本也更易部署,同时提供ncnn、OpenVINO、MNN以及安卓APP的Demo!转载 2022-01-13 19:00:00 · 994 阅读 · 0 评论 -
从CenterTrack出发谈谈联合检测和跟踪的MOT框架
最近一年里,随着Tracktor++这类集成检测和多目标跟踪算法框架的出现,涌现了很多相关的多目标跟踪算法变种,基本都位列MOT Challenge榜单前列,包括刚刚开源的榜首CenterTrack(22FPS),作者同时也是CenterNet的作者。这里我就对集成检测和跟踪的框架进行分析,相关MOT和数据关联的基础知识可以在我的专栏查看,后期我也会针对基于深度学习的数据关联、ReID2MOT和SOT2MOT等进行专题介绍,收藏的同时也希望点个赞~原创 2022-01-14 19:01:51 · 1601 阅读 · 0 评论 -
NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端
NLP的新秀prompt,最近着实有点火。上周针对CoOp写过一篇分享,视觉-语言表征学习CLIP,这周继续介绍视觉语言模型,NLP-CV结合,突破感知到认知的飞跃!转载 2021-10-31 19:00:00 · 343 阅读 · 0 评论 -
在原神里钓鱼,有人用上了深度强化学习,还把它开源了
还愁在《原神》里钓不到鱼吗?这有一份迟到的提瓦特钓鱼指南。在游戏圈,你可以没有玩过,但一定听过《原神》。虽然这是一款口碑两极分化的游戏,但不得不承认《原神》是当前最为火热的游戏之一。特别是...转载 2021-10-29 19:00:00 · 584 阅读 · 0 评论 -
NeurIPS 2021 | 图像未必值16x16词:可变序列长度的动态视觉Transformer来了
本文主要介绍刚刚被NeurIPS-2021会议录用的一篇关于动态Transformer的最新工作:Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with Adaptive Sequence Length,全部代码和预训练模型已经在Github上开源。转载 2021-11-04 19:00:00 · 239 阅读 · 0 评论 -
跑通代码 - 图像隐写术专栏
一种图像嵌入盲水印的方法、攻击方式及系统An Algorithm, Attack Method and System for Image Embedding Blind Watermark [P], Wei Zhang. [PDF] | [Slides] | [Demo] | [PyS...原创 2022-01-20 12:05:47 · 1087 阅读 · 4 评论 -
一文搞懂异常检测中离群、异常、新类、开集、分布外检测异同
你是否也曾迷惑于「离群检测,异常检测,新类检测,开集识别,分布外检测」之间错综复杂的关系?你是否也想要解决开放世界的问题却不知道从哪个任务入手?不知道利用什么方法解决问题?这篇最新综述将让你对开放世界领域有全新的认识!原创 2021-10-27 19:00:00 · 698 阅读 · 0 评论 -
用ViT替代卷积网络做密集预测,英特尔实验室提出DPT架构,在线Demo可用
在这项研究中,研究者提出了 DPT 架构。这种 ViT 架构代替了卷积网络作为密集预测任务的主干网络,获得了更好的细粒度和更全局一致的预测。原创 2021-10-26 19:00:00 · 380 阅读 · 0 评论 -
MaskFormer:语义分割是像素分类问题吗?
写这篇文章的主要目的是想介绍“Per-Pixel Classification is Not All You Need for Semantic Segmentation”背后的主要思想,而不是MaskFormer的具体实现。对实验细节感兴趣的小伙伴欢迎看我们的paper或者code。转载 2021-08-20 19:00:00 · 1567 阅读 · 0 评论 -
OpenAI CLIP也可以在iPhone上可运行了,24MB实现文本图像匹配
OpenAI 的 CLIP 模型在匹配图像与文本类别方面非常强大,但原始 CLIP 模型是在 4 亿多个图像 - 文本对上训练的,耗费了相当大的算力。来自 PicCollage 公司的研究者最近进行了缩小 CLIP 模型尺寸的研究,并取得了出色的效果。转载 2021-08-23 19:00:00 · 627 阅读 · 2 评论 -
项目实战 基于图割算法的木材表面缺陷图像分析
鉴于图割方法的明显优势,白雪冰及其团队采用Graph Cuts算法和Grab Cut算法分别对木材表面的单目标和多目标缺陷图像进行分割试验,以总结传统图割方法的不足和改进算法的优点。原创 2021-09-01 19:00:00 · 514 阅读 · 0 评论 -
视觉-语言表征学习新进展:提词优化器「琥珀」带你用好CLIP
你是否还在为设计 CLIP 模型的提词器(prompt)而烦恼?到底是「a photo of a [class]」还是「a [class] photo」?对于特定任务(例如食物分类或是卫星图像识别),如何添加符合语境的上下文(context)?本文提出的提词优化器 CoOp(中文名:琥珀)能够给你答案。转载 2021-10-25 19:00:00 · 405 阅读 · 0 评论 -
Hinton团队CV新作:用语言建模做目标检测,性能媲美DETR
目标检测的「尽头」是语言建模?近日,Hinton 团队提出了全新目标检测通用框架 Pix2Seq,将目标检测视作基于像素的语言建模任务,实现了媲美 Faster R-CNN 和 DETR 的性能表现原创 2021-10-21 22:00:58 · 246 阅读 · 0 评论 -
在做算法工程师的道路上,你掌握了什么概念或技术使你感觉自我提升突飞猛进?...
实时总结,总结过往的成功与不足;这可以是自己的经验,也可以是别人的经验,当我们不会或迷茫时,从别人那或许能收获到更多,正如“一语惊醒梦中人”。在我看完知乎@金瀛若愚(微软算法工程师)的工作总结后,我对于标题这个问题有了更多的理解和帮助。今天的文章,就与大家分享,实时总结不断提高!转载 2021-09-04 19:00:00 · 364 阅读 · 0 评论 -
基于深度学习的特征提取和匹配,全解析
计算机视觉需要图像预处理,比如特征提取,包括特征点,边缘和轮廓之类。以前做跟踪和3-D重建,首先就得提取特征。特征点以前成功的就是SIFT/SURF/FAST之类,现在完全可以通过CNN模型形成的特征图来定义。转载 2021-09-05 19:00:00 · 1653 阅读 · 0 评论 -
开启生成式视频压缩:谷歌基于GAN来实现,性能与HEVC相当
来自谷歌的研究者提出了一种基于生成对抗网络 (GAN) 的神经视频压缩方法,该方法优于以前的神经视频压缩方法,并且在用户研究中与 HEVC 性能相当。转载 2021-09-07 19:07:27 · 355 阅读 · 0 评论 -
深度学习模型知识产权保护怎么做?看看IJCAI 2021这场Workshop说了什么
在刚刚结束的 IJCAI 2021 大会上,「深度学习模型知识产权保护国际研讨会(DeepIPR-IJCAI’21)」正式举行,这场研讨会由微众银行、马来亚大学、香港科技大学、上海交通大学共同主办。原创 2021-09-08 19:06:40 · 1734 阅读 · 0 评论 -
MIT、CMU等新研究,编辑类级别的NeRF,可修改对象颜色或形状
可以更准确地捕获对象类的形状和外观,然后再描述如何更新网络权重以实现颜色和形状编辑效果的神经网络架构。原创 2021-09-09 19:00:00 · 439 阅读 · 0 评论 -
综合LSTM、transformer优势,DeepMind强化学习智能体提高数据效率
来自 DeepMind 的研究者提出了用于强化学习的 CoBERL 智能体,它结合了新的对比损失以及混合 LSTM-transformer 架构,可以提高处理数据效率。实验表明,CoBERL 在整个 Atari 套件、一组控制任务和具有挑战性的 3D 环境中可以不断提高性能。转载 2021-09-14 18:58:09 · 1686 阅读 · 0 评论 -
CVPR 2021 论文大盘点-文本图像篇
本文收集文本检测与识别相关论文,包含任意形状文本检测、场景文本识别、手写文本识别、文本分割、文本图像检索、视频文本识别等,有趣的方向很多,共计 17 篇。原创 2021-09-24 19:00:00 · 1086 阅读 · 1 评论 -
华人团队用Transformer做风格迁移,速度快、可试玩,网友却不买账
利用神经网络进行风格迁移是一项非常常见的任务,方法也很多,比如基于优化和基于 RL 的方法。最近,来自百度 VIS 团队的研究者提出了一种基于 Transformer 的风格迁移框架,速度快于基线方法,实现效果也不错。然而,研究遭到了网友的质疑,这是为什么呢?转载 2021-09-28 19:00:00 · 572 阅读 · 0 评论 -
CVPR 2021首次,王言治教授等人把GAN压缩22倍
王言治教授团队与美国色拉布公司(Snap Inc.)首次提出了一种GAN剪枝的方法,除了使压缩时间减少了四个数量级以外,还在远低于原始计算量的条件下,获得来比原有模型更好的性能,并且实现了更高的生成图片质量。论文已被CVPR 2021收录。原创 2021-09-03 20:00:00 · 362 阅读 · 0 评论 -
加性注意力机制、训练推理效率优于其他Transformer变体,这个Fastformer的确够快...
从训练与推理效率来看,清华和微软亚研提出的 Fastformer 无愧于「fast」。原创 2021-08-31 19:00:00 · 545 阅读 · 0 评论