计算机视觉论文速递
文章平均质量分 75
整理并介绍最新的计算机视觉方向的论文
Amusi(CVer)
欢迎关注微信公众号:CVer
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
FLIP:Scaling Language-Image Pre-training via Masking
本文提出了Fast Language-Image Pre-training (FLIP),这是一种简单且更有效的训练CLIP的方法。原创 2022-12-04 20:12:22 · 1086 阅读 · 0 评论 -
何恺明团队新作FLIP:通过Masking扩展语言-图像预训练
本文提出了Fast Language-Image Pre-training (FLIP),这是一种简单且更有效的训练CLIP的方法。原创 2022-12-04 20:11:39 · 1044 阅读 · 0 评论 -
Pix2seq: A Language Modeling Framework for Object Detection
Pix2Seq:一个简单而通用的目标检测新框架, 其将目标检测转换为语言建模任务,大大简化了pipeline,性能可比肩Faster R-CNN和DETR!还可扩展到其他任务。注1:有点像去年看到DETR的感觉,都是没有对标sota,而是跟milestone比较。所以这一两年都要把CV看成NLP来搞么,或者说大统一注2:文末附【Transformer】和【目标检测】交流群Pix2seqPix2seq: A Language Modeling Framework for Object Detectio原创 2021-09-23 21:13:17 · 1354 阅读 · 0 评论 -
谷歌Hinton等提出Pix2seq:用于目标检测的语言建模框架
Pix2Seq:一个简单而通用的目标检测新框架, 其将目标检测转换为语言建模任务,大大简化了pipeline,性能可比肩Faster R-CNN和DETR!还可扩展到其他任务。注1:有点像去年看到DETR的感觉,都是没有对标sota,而是跟milestone比较。所以这一两年都要把CV看成NLP来搞么,或者说大统一注2:文末附【Transformer】和【目标检测】交流群Pix2seqPix2seq: A Language Modeling Framework for Object Detectio原创 2021-09-23 21:12:10 · 1436 阅读 · 1 评论 -
YOLOX: Exceeding YOLO Series in 2021
非常期待YOLOv6(YOLOv4/v5已发布一年了),白嫖真香!其中YOLOX-L版本以 68.9 FPS 的速度在 COCO 上实现了 50.0% AP,比 YOLOv5-L 高出 1.8% AP!还提供了支持 ONNX、TensorRT、NCNN 和 Openvino 的部署版本。代码刚刚开源!YOLOXYOLOX: Exceeding YOLO Series in 2021作者单位:旷视科技代码:https://github.com/Megvii-BaseDetection/YOLO原创 2021-07-20 13:26:07 · 1429 阅读 · 0 评论 -
超越一切YOLO!旷视提出YOLOX:新一代实时目标检测网络
非常期待YOLOv6(YOLOv4/v5已发布一年了),白嫖真香!其中YOLOX-L版本以 68.9 FPS 的速度在 COCO 上实现了 50.0% AP,比 YOLOv5-L 高出 1.8% AP!还提供了支持 ONNX、TensorRT、NCNN 和 Openvino 的部署版本。代码刚刚开源!YOLOXYOLOX: Exceeding YOLO Series in 2021作者单位:旷视科技代码:https://github.com/Megvii-BaseDetection/YOLO原创 2021-07-20 13:24:28 · 42572 阅读 · 13 评论 -
CVPR 2021 目标检测论文大盘点(65篇论文)
前言一共搜集了65篇2D目标检测论文,涉及:通用目标检测、旋转目标检测、Few-shot/自监督/半监督/无监督目标检测等方向。作者:Amusi | 来源:CVerCVer 正式盘点CVPR 2021上各个方向的工作,本篇是热度依然很高的2D目标检测论文大盘点,之前已分享:最新!CVPR 2021 视觉Transformer论文大盘点(43篇)最新!CVPR 2021 OCR领域论文大盘点(22篇)关于更多CVPR 2021的论文和开源代码,可见下面链接:CVPR2021 Papers wit原创 2021-07-01 15:24:34 · 23011 阅读 · 1 评论 -
CoAtNet: Marrying Convolution and Attention for All Data Sizes
本文系统调研了CNN和Transformer的特性,并将两者结合提出新的家族式网络:CoAtNet,无额外数据时高达86%准确率,在JFT加持下,高达89.77%!性能优于CvT、BotNet和Swin等网络。谷歌两天祭出两大Backbone,昨天的ViT-G,今天的CoAtNet…注:别老收藏呀,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeCoAtNetCoAtNet: Marrying Convolution a原创 2021-06-11 21:33:52 · 2336 阅读 · 0 评论 -
89.77%准确率!谷歌大脑提出CoAtNet:结合卷积和注意力
本文系统调研了CNN和Transformer的特性,并将两者结合提出新的家族式网络:CoAtNet,无额外数据时高达86%准确率,在JFT加持下,高达89.77%!性能优于CvT、BotNet和Swin等网络。谷歌两天祭出两大Backbone,昨天的ViT-G,今天的CoAtNet…注:别老收藏呀,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeCoAtNetCoAtNet: Marrying Convolution a原创 2021-06-11 21:33:03 · 2266 阅读 · 6 评论 -
Scaling Vision Transformers
本文改进了ViT的架构和训练,减少了内存消耗并提高了模型的准确性!最终成功训练了一个具有20亿参数的ViT模型:ViT-G,在ImageNet上达到了90.45%的 top-1准确率。注1:文末附【视觉Transformer】交流群想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeViT-GScaling Vision Transformers作者单位:谷歌大脑(苏黎世),有原ViT一作和二作论文:https://arxiv.org/a原创 2021-06-11 21:18:14 · 1965 阅读 · 0 评论 -
90.45% 准确率!谷歌大脑提出:缩放视觉Transformer
本文改进了ViT的架构和训练,减少了内存消耗并提高了模型的准确性!最终成功训练了一个具有20亿参数的ViT模型:ViT-G,在ImageNet上达到了90.45%的 top-1准确率。注1:文末附【视觉Transformer】交流群想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeViT-GScaling Vision Transformers作者单位:谷歌大脑(苏黎世),有原ViT一作和二作论文:https://arxiv.org/a原创 2021-06-11 21:17:42 · 1015 阅读 · 0 评论 -
SegFormer: Simple and Efficient Design for Semantic Segmenta
前言将 Transformer 与轻量级多层感知 (MLP) 解码器相结合,表现SOTA!性能优于SETR、Auto-Deeplab和OCRNet等网络,代码即将开源!注1:文末附【视觉Transformer】交流群想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeSegFormerSegFormer: Simple and Efficient Design for Semantic Segmentation with Transformer原创 2021-06-01 18:48:12 · 1866 阅读 · 0 评论 -
SegFormer:使用Transformer进行语义分割的简单高效设计
前言将 Transformer 与轻量级多层感知 (MLP) 解码器相结合,表现SOTA!性能优于SETR、Auto-Deeplab和OCRNet等网络,代码即将开源!注1:文末附【视觉Transformer】交流群想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeSegFormerSegFormer: Simple and Efficient Design for Semantic Segmentation with Transformer原创 2021-06-01 18:46:54 · 8286 阅读 · 1 评论 -
Pay Attention to MLPs
研究表明:自注意力对于视觉Transformer并不重要,因为gMLP可以达到相同的精度,性能优于ResMLP、MLP-Mixer等网络,可比肩DeiT等,在视觉和语言任务中通吃!可媲美Transformer!注1:文末附【视觉Transformer】交流群注2:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodegMLPPay Attention to MLPs作者单位:谷歌大脑(Quoc V. Le)论文下原创 2021-05-18 14:19:59 · 1788 阅读 · 0 评论 -
谷歌大脑提出gMLP:请多多关注MLP
研究表明:自注意力对于视觉Transformer并不重要,因为gMLP可以达到相同的精度,性能优于ResMLP、MLP-Mixer等网络,可比肩DeiT等,在视觉和语言任务中通吃!可媲美Transformer!注1:文末附【视觉Transformer】交流群注2:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodegMLPPay Attention to MLPs作者单位:谷歌大脑(Quoc V. Le)论文下原创 2021-05-18 14:19:04 · 1798 阅读 · 4 评论 -
ResMLP: Feedforward networks for image classification with data-efficient training
本文提出MLP 视觉新方法,构建了一个超级简单的残差架构,其残差块由一个隐藏层的前馈网络和一个线性patch交互层组成!当采用现代的训练方法,则可以在ImageNet上实现意想不到的高性能!代码即将开源!这一周MLP真热闹啊,看看近期的新工作:注1:文末附【视觉Transformer】交流群注2:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeResMLP: Feedforward networks for i原创 2021-05-10 16:44:38 · 998 阅读 · 0 评论 -
Facebook提出ResMLP:具有数据高效训练用于图像分类的前馈网络
本文提出MLP 视觉新方法,构建了一个超级简单的残差架构,其残差块由一个隐藏层的前馈网络和一个线性patch交互层组成!当采用现代的训练方法,则可以在ImageNet上实现意想不到的高性能!代码即将开源!这一周MLP真热闹啊,看看近期的新工作:注1:文末附【视觉Transformer】交流群注2:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeResMLP: Feedforward networks for i原创 2021-05-10 16:44:01 · 848 阅读 · 1 评论 -
MLP-Mixer: An all-MLP Architecture for Vision
一种仅基于多层感知机(MLP)的体系结构!可比肩并旨在超越成熟的CNN和大火的视觉Transformer的阵营工作,代码即将开源!PS:这个能引爆一波视觉MLP工作么?也许之后是CNN、Transformer、MLP几大阵营了…谷歌继续挖坑,太强了!注1:文末附【Transformer】交流群注2:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeMLP-Mixer: An all-MLP Archi原创 2021-05-05 23:07:03 · 3267 阅读 · 0 评论 -
新坑来了!谷歌提出MLP-Mixer:一种用于视觉的全MLP架构
一种仅基于多层感知机(MLP)的体系结构!可比肩并旨在超越成熟的CNN和大火的视觉Transformer的阵营工作,代码即将开源!PS:这个能引爆一波视觉MLP工作么?也许之后是CNN、Transformer、MLP几大阵营了…谷歌继续挖坑,太强了!注1:文末附【Transformer】交流群注2:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeMLP-Mixer: An all-MLP Archi原创 2021-05-05 23:06:31 · 806 阅读 · 0 评论 -
EfficientNetV2: Smaller Models and Faster Training
没有用JFT自家数据,在ImageNet刷到87.3%的top-1精度!训练速度比最先进的模型快得多,并缩小了6.8倍!性能超越ViT、BotNet和ResNeSt等网络,代码即将开源!注:Backbone哪家强?先杀一杀Transformer的锐气注:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeEfficientNetV2: Smaller Models and Faster Training作者单原创 2021-04-03 18:47:04 · 1374 阅读 · 2 评论 -
EfficientNetV2震撼发布!更小的模型,更快的训练
没有用JFT自家数据,在ImageNet刷到87.3%的top-1精度!训练速度比最先进的模型快得多,并缩小了6.8倍!性能超越ViT、BotNet和ResNeSt等网络,代码即将开源!注:Backbone哪家强?先杀一杀Transformer的锐气注:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeEfficientNetV2: Smaller Models and Faster Training作者单原创 2021-04-03 18:46:15 · 2322 阅读 · 1 评论 -
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
目标检测刷到58.7 AP(目前第一)!实例分割刷到51.1 Mask AP(目前第一)!语义分割在ADE20K上刷到53.5 mIoU(目前第一)!性能优于DeiT、ViT和EfficientNet等主干网络,代码即将开源!注1:文末附【Transformer】交流群注2:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:https://github.com/amusi/CVPR2021-Papers-with-CodeSwin Transformer: Hi原创 2021-03-31 17:45:26 · 2794 阅读 · 1 评论 -
屠榜各大CV任务!Swin Transformer : 层次化视觉Transformer
目标检测刷到58.7 AP(目前第一)!实例分割刷到51.1 Mask AP(目前第一)!语义分割在ADE20K上刷到53.5 mIoU(目前第一)!性能优于DeiT、ViT和EfficientNet等主干网络,代码即将开源!注1:文末附【Transformer】交流群注2:整理不易,欢迎点赞,支持分享!想看更多CVPR 2021论文和开源项目可以点击:https://github.com/amusi/CVPR2021-Papers-with-CodeSwin Transformer: Hi原创 2021-03-31 17:44:57 · 1807 阅读 · 0 评论 -
涨点神器!IC-Conv:使用高效空洞搜索的Inception卷积,全方位提升!
点击上方“CVer”,选择加"星标"置顶重磅干货,第一时间送达本文转载自:AI人工智能初学者本文提出一种空洞卷积的新变体:Inception卷积,并提出一种基于统计优化的...转载 2020-12-31 12:46:20 · 3160 阅读 · 3 评论 -
YOLOF: You Only Look One-level Feature
没有FPN!更快更强,性能优于YOLOv4、DETR等网络,其中一版本性能44.3 mAP / 60 FPS,代码于12个小时前刚刚开源!注:文末附【目标检测】交流群想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeYou Only Look One-level Feature作者单位:中科院, 国科大, 旷视科技代码:https://github.com/megvii-model/YOLOF论文下载链接:https://arxiv.org原创 2021-03-18 21:28:48 · 3657 阅读 · 2 评论 -
CVPR 2021 | 没有FPN!中科院&旷视提出YOLOF:你只需看一层特征
没有FPN!更快更强,性能优于YOLOv4、DETR等网络,其中一版本性能44.3 mAP / 60 FPS,代码于12个小时前刚刚开源!注:文末附【目标检测】交流群想看更多CVPR 2021论文和开源项目可以点击:CVPR2021-Papers-with-CodeYou Only Look One-level Feature作者单位:中科院, 国科大, 旷视科技代码:https://github.com/megvii-model/YOLOF论文下载链接:https://arxiv.org原创 2021-03-18 21:27:49 · 1389 阅读 · 1 评论 -
Unsupervised Brain Anomaly Detection and Segmentation with Transformers
VQ-VAE + Transformer真香!其中用到了Performer模型,表现SOTA!性能优于AE等网络。Unsupervised Brain Anomaly Detection and Segmentation with Transformers作者单位:伦敦国王学院, 伦敦大学学院论文下载链接:https://arxiv.org/abs/2102.11650病理性脑部外观可能如此异质,以致仅可理解为异常,异常是由其偏离正常状态而不是任何特定病理特征定义的。在医学成像中最艰原创 2021-02-24 23:31:57 · 939 阅读 · 0 评论 -
基于Transformer的无监督大脑异常检测和分割
VQ-VAE + Transformer真香!其中用到了Performer模型,表现SOTA!性能优于AE等网络。Unsupervised Brain Anomaly Detection and Segmentation with Transformers作者单位:伦敦国王学院, 伦敦大学学院论文下载链接:https://arxiv.org/abs/2102.11650病理性脑部外观可能如此异质,以致仅可理解为异常,异常是由其偏离正常状态而不是任何特定病理特征定义的。在医学成像中最艰原创 2021-02-24 23:30:55 · 2792 阅读 · 1 评论 -
Medical Transformer: Gated Axial-Attention for Medical Image Segmentation
表现SOTA!并提出局部-全局训练策略(LoGo),进一步提高性能,优于Res-UNet、U-Net++等网络,代码刚刚开源!Medical Transformer: Gated Axial-Attention for Medical Image Segmentation作者单位:JHU, 新泽西州立大学代码:https://github.com/jeya-maria-jose/Medical-Transformer论文下载链接:https://arxiv.org/abs/2102.10662原创 2021-02-24 23:26:50 · 4140 阅读 · 2 评论 -
MedT:用于医学图像分割的Transformer
表现SOTA!并提出局部-全局训练策略(LoGo),进一步提高性能,优于Res-UNet、U-Net++等网络,代码刚刚开源!Medical Transformer: Gated Axial-Attention for Medical Image Segmentation作者单位:JHU, 新泽西州立大学代码:https://github.com/jeya-maria-jose/Medical-Transformer论文下载链接:https://arxiv.org/abs/2102.10662原创 2021-02-24 23:26:18 · 10644 阅读 · 21 评论 -
Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer
本文提出UniT:统一的Transformer编码器-解码器体系结构,能够在单个模型中连接和学习多个任务和领域,均能达到SOTA!代码即将开源!Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer作者单位:Facebook(FAIR)主页:https://mmf.sh/论文下载链接:https://arxiv.org/abs/2102.10772我们提出UniT:统一Tran原创 2021-02-24 23:21:25 · 1803 阅读 · 0 评论 -
Transformer is All You Need:使用统一Transfomer的多模态多任务学习
本文提出UniT:统一的Transformer编码器-解码器体系结构,能够在单个模型中连接和学习多个任务和领域,均能达到SOTA!代码即将开源!Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer作者单位:Facebook(FAIR)主页:https://mmf.sh/论文下载链接:https://arxiv.org/abs/2102.10772我们提出UniT:统一Tran原创 2021-02-24 23:20:44 · 2197 阅读 · 0 评论 -
Do We Really Need Explicit Position Encodings for Vision Transformers?
本文提出CPVT:条件Position encoding视觉Transformer,可以自然地处理任意长度的输入序列,其中PEG模块可以无缝集成到现有框架中,性能优于DeiT、ViT等网络Do We Really Need Explicit Position Encodings for Vision Transformers?代码:https://github.com/Meituan-AutoML/CPVT论文下载链接:https://arxiv.org/abs/2102.10882作者单位:美团原创 2021-02-24 23:14:23 · 1608 阅读 · 0 评论 -
我们真的需要视觉Transformers中的Position Encodings吗?
本文提出CPVT:条件Position encoding视觉Transformer,可以自然地处理任意长度的输入序列,其中PEG模块可以无缝集成到现有框架中,性能优于DeiT、ViT等网络Do We Really Need Explicit Position Encodings for Vision Transformers?代码:https://github.com/Meituan-AutoML/CPVT论文下载链接:https://arxiv.org/abs/2102.10882作者单位:美团原创 2021-02-24 23:13:45 · 965 阅读 · 1 评论 -
TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation
在息肉分割任务上表现SOTA!性能优于SETR、PraNet和ResUNet++等,速度高达98.7 FPS!注1:文末附【Transformer】和【医疗影像】交流群注2:整理不易,欢迎点赞,支持分享!TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation作者单位:Rayicer, 佐治亚理工学院论文:https://arxiv.org/abs/2102.08005具有深度特征表示和跳跃连接的基于U-N原创 2021-02-17 21:56:48 · 2600 阅读 · 0 评论 -
TransFuse:融合Transformers和CNN用于医学图像分割
在息肉分割任务上表现SOTA!性能优于SETR、PraNet和ResUNet++等,速度高达98.7 FPS!注1:文末附【Transformer】和【医疗影像】交流群注2:整理不易,欢迎点赞,支持分享!TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation作者单位:Rayicer, 佐治亚理工学院论文:https://arxiv.org/abs/2102.08005具有深度特征表示和跳跃连接的基于U-N原创 2021-02-17 21:55:37 · 3857 阅读 · 5 评论 -
TransGAN: Two Transformers Can Make One Strong GAN
两个Transformers可变成一个强GAN!表现SOTA,性能优于AUTOGAN、SN-GAN等网络,部分代码刚刚开源!注1:文末附【Transformer】和【GAN】交流群注2:整理不易,欢迎点赞,支持分享!TransGAN: Two Transformers Can Make One Strong GAN作者单位:UT-Austin, IBM研究院代码:https://github.com/VITA-Group/TransGAN论文:https://arxiv.org/abs/21原创 2021-02-17 21:52:11 · 2098 阅读 · 0 评论 -
没有卷积!TransGAN:首个基于纯Transformer的GAN网络
两个Transformers可变成一个强GAN!表现SOTA,性能优于AUTOGAN、SN-GAN等网络,部分代码刚刚开源!注1:文末附【Transformer】和【GAN】交流群注2:整理不易,欢迎点赞,支持分享!TransGAN: Two Transformers Can Make One Strong GAN作者单位:UT-Austin, IBM研究院代码:https://github.com/VITA-Group/TransGAN论文:https://arxiv.org/abs/21原创 2021-02-17 21:51:30 · 6152 阅读 · 1 评论 -
High-Performance Large-Scale Image Recognition Without Normalization
本文提出了Normalizer-Free ResNets家族,简称NFNets,表现SOTA!其中小版本与EfficientNet-B7的精度相同,但训练速度却快了8.7倍,最高达89.2%准确率!代码刚刚开源!-注1:文末附【计算机视觉细分垂直方向】交流群(含检测、分割、跟踪、医疗、GAN、Transformer等)注2:整理不易,欢迎点赞,支持分享!High-Performance Large-Scale Image Recognition Without Normalization作者单位转载 2021-02-17 21:48:10 · 1512 阅读 · 1 评论 -
Training Vision Transformers for Image Retrieval
表现SOTA!性能优于ProxyNCA++、XBM等网络,结果表明,与基于卷积的方法相比,transformer具有一致且显著的改进!Transformer杀疯了!近期又有一波视觉Transformer的工作(大都来自大厂和Top高校)。注2:整理不易,欢迎点赞,支持分享!Training Vision Transformers for Image Retrieval作者单位:Facebook, ENS/Inria论文:https://arxiv.org/abs/2102.05644Tra原创 2021-02-17 21:42:13 · 1506 阅读 · 0 评论