
前沿论文推介
文章平均质量分 93
前沿论文推介
AiCharm
新星计划第三季人工智能赛道第一名-人工智能领域实力新星获得者,阿里云社区博客专家,华为云享专家
展开
-
卷,卷,卷,SAM发布不到24h | BAAI、浙大、北大联合推出SegGPT
在这项工作中,我们提出了一种通用的分割模型,展示了如何设计适当的训练策略,充分利用上下文视觉学习的灵活性。然而,我们的工作也存在缺点。虽然我们的工作引入了一种新的随机着色机制,以提高上下文训练的泛化能力,但也使得训练任务本质上更加困难,这可能是在具有丰富训练数据的领域内任务中表现较差的原因,例如ADE20K上的语义分割和COCO上的全景分割。因此,One-Shot Training Details是一种有效的训练方法,可以帮助模型更好地适应不同类型的数据,并提高图像分割任务的性能。但在其发布24h不到!原创 2023-04-08 16:54:37 · 2399 阅读 · 1 评论 -
Meta发布分割大模型[Segment Anything]CV的GPT时刻来临?
这下 CV 是真不存在了。< 快跑 >」这是知乎网友对于一篇 Meta 新论文的评价。如标题所述,这篇论文只做了一件事情:()分割一切。类似 GPT-4 已经做到的「Meta 表示,这是第一个致力于图像分割的基础模型。自此,CV 也走上了「」的道路。在计算机视觉中,图像分割是一项核心任务,但为特定任务创建准确的分割模型通常需要技术专家进行高度专业化的工作,并且需要大量的领域标注数据。这些因素限制了图像分割的进一步发展。然而,Meta最近发布了一个名为。原创 2023-04-07 10:02:15 · 773 阅读 · 0 评论 -
CVPR 2023 点云系列 | Point-NN无需训练的非参数、即插即用网络
我们提出了一种用于 3D 点云分析的非参数网络 Point-NN,它由纯不可学习的组件组成:最远点采样 (FPS)、k 最近邻 (k-NN) 和池化操作,具有三角函数.令人惊讶的是,它在各种 3D 任务上表现良好,不需要参数或训练,甚至超过了现有的完全训练模型。如图5所示,在Point-NN的顶部,我们首先替使用一个传统的可学习的分类头替代点存储库(上图A位置),这个轻量级的版本在ModelNet40上就实现了90.3%的分类准确率,只有0.3M的参数。通过标记,可以将视为3D训练集的编码类别知识。原创 2023-04-06 10:56:36 · 3656 阅读 · 1 评论 -
2022年AI顶级论文 —生成模型之年(下)
过去十年来,人工智能技术在持续提高和飞速发展,并不断冲击着人类的认知。2012年,在ImageNet图像识别挑战赛中,一种神经网络模型(AlexNet)首次展现了明显超越传统方法的能力。2016年,AlphaGo在围棋这一当时人们认为其复杂性很难被人工智能系统模拟的围棋挑战赛中战胜了世界冠军。2017年,Google的Ashish Vaswani等人提出了 Transformer 深度学习新模型架构,奠定了当前大模型领域主流的算法架构基础。原创 2023-02-28 09:21:48 · 2441 阅读 · 0 评论 -
2022年AI顶级论文 —生成模型之年(中)
过去十年来,人工智能技术在持续提高和飞速发展,并不断冲击着人类的认知。2012年,在ImageNet图像识别挑战赛中,一种神经网络模型(AlexNet)首次展现了明显超越传统方法的能力。2016年,AlphaGo在围棋这一当时人们认为其复杂性很难被人工智能系统模拟的围棋挑战赛中战胜了世界冠军。2017年,Google的Ashish Vaswani等人提出了 Transformer 深度学习新模型架构,奠定了当前大模型领域主流的算法架构基础。原创 2023-02-21 10:45:03 · 2198 阅读 · 0 评论 -
2022年AI顶级论文 —生成模型之年(上)
过去十年来,人工智能技术在持续提高和飞速发展,并不断冲击着人类的认知。2012年,在ImageNet图像识别挑战赛中,一种神经网络模型(AlexNet)首次展现了明显超越传统方法的能力。2016年,AlphaGo在围棋这一当时人们认为其复杂性很难被人工智能系统模拟的围棋挑战赛中战胜了世界冠军。2017年,Google的Ashish Vaswani等人提出了 Transformer 深度学习新模型架构,奠定了当前大模型领域主流的算法架构基础。原创 2023-02-20 09:00:00 · 3361 阅读 · 0 评论 -
ICLR 2022—你不应该错过的 10 篇论文(下)
ICLR 2023已经放榜,但是今天我们先来回顾一下去年的ICLR 2022!ICLR 2022将于2022年 4 月 25 日星期一至 4 月 29 日星期五在线举行(连续第三年!它是机器学习研究领域规模最大、最受欢迎的会议之一,它汇集了超过 1000 篇论文、19 个研讨会和 8 个特邀报告。主题涵盖 ML 理论、强化学习 (RL)、计算机视觉 (CV) )、自然语言处理 (NLP)、神经科学等等。原创 2023-02-17 13:22:37 · 793 阅读 · 0 评论 -
ICLR 2022—你不应该错过的 10 篇论文(上)
将于2022年 4 月 25 日星期一至 4 月 29 日星期五在线举行(连续第三年!它是深度学习研究领域规模最大、最受欢迎的会议之一,它汇集了超过 1000 篇论文、19 个研讨会和 8 个特邀报告。主题涵盖 ML 理论、强化学习 (RL)、计算机视觉 (CV) )、自然语言处理 (NLP)、神经科学等等。如果我们想要对这一庞大的内容阵容有所了解,就必须进行挑选,我们根据现有信息,挑选出10篇最能激起我们兴趣的论文。事不宜迟,快来看看吧!原创 2023-02-15 11:39:37 · 1261 阅读 · 0 评论 -
YOLO系列改进 | YOLOF的小小改进升级之轻量化TE-YOLOF
显微图像中的血细胞分析通过识别不同的细胞对象在疾病识别领域中起着至关重要的作用。在血细胞领域,血液中有三种重要成分:白细胞(WBC)、红细胞(RBC)和血小板。这些血细胞的比例和数量严重影响医生对疾病的判断。因此,找到一种基于深度卷积神经网络的目标检测算法来准确高效地检测血细胞,可以提高医疗系统的效率。目标检测是寻找图像中物体坐标并对物体进行分类的研究,广泛应用于机器视觉、行人识别、异常检测等计算机视觉任务中,精确的目标检测算法让计算机代替了部分人工来手动检查实例。转载 2023-02-04 10:22:39 · 1223 阅读 · 0 评论 -
超越YOLOv8 | YOLOv6 v3.0为迎兔年重磅升级
YOLOv6 v3.0的主要贡献简述如下:;。,在不影响推理效率的情况下同时受益于Anchor-basedAnchor-free设计理念。对YOLOv6的Backbone与Neck进行加深,在更高分辨率输入下达成新的SOTA性能。提出一种新的自蒸馏策略提升YOLOv6小模型的性能,训练阶段采用更大的DFL作为增强版辅助回归分支。转载 2023-02-03 11:49:32 · 439 阅读 · 0 评论 -
目标检测框架在目标跟踪中的应用
这几篇文章的一个共同思路都是融合了Siamese架构和目标检测框架,将目标实例信息以各种形式加入待检测图像中,从而将class-level的通用检测转变成instance-level的实例检测(跟踪)。原创 2023-02-03 11:46:11 · 955 阅读 · 0 评论 -
人工智能趋势——2023 年综述
最后,强调一些与研究相关性较低但仍然是人工智能在未来 内如何发展的关键的问题:在硬件方面,Nvidia 在 AI 芯片上的垄断地位仍未动摇,只有奇迹才能在短期内改变这一局面。关于 HuggingFace 被谷歌收购并与他们的 GCP 和 TPU 紧密集成以进行托管的传言可能会增加 TPU 硬件的使用,但这听起来仍然不太可能。欧洲人工智能法案——迄今为止最雄心勃勃、最全面的监管工作——继续取得进展,目前的估计表明它最早可能在 2023 年底生效。原创 2023-02-02 10:15:21 · 1466 阅读 · 0 评论 -
计算机视觉论文速递(十)ViT-LSLA:超越Swin的Light Self-Limited-Attention
Transformer的出现对自然语言处理(NLP)产生了深远影响。此外,视觉Transformer(ViT)与有线电视新闻网(CNN)相比表现出了良好的性能。受ViT的启发,提出了几种视觉Transformer。然而,对于各种视觉任务来说,采用原始的完全Self-Attention是不合适的,这导致了昂贵的计算成本(Self-Attention的计算复杂度与图像大小成二次方)。为了解决这个问题,一方面,一种典型的方法是将全局Self-Attention的范围限制在局部地区。转载 2023-01-27 09:37:41 · 454 阅读 · 1 评论 -
计算机视觉论文速递(九)EfficientFormer: Vision Transformers at MobileNet Speed 轻量化实时推理的Transformer模型
Vision Transformers (ViT) 在计算机视觉任务中取得了快速进展,在各种基准测试中取得了可喜的成果。然而,由于大量的参数和模型设计,例如注意力机制,基于 ViT 的模型通常比轻量级卷积网络慢几倍。因此,应用部署 ViT 具有很大的挑战性,尤其是在移动设备等资源受限的硬件上。 最近的很多工作都试图通过网络架构搜索或与 MobileNet Block 的混合设计来降低 ViT 的计算复杂度,但推理速度仍然不能令人满意。这就引出了一个重要的问题:Transformer...原创 2022-06-19 09:00:00 · 1111 阅读 · 1 评论 -
计算机视觉论文速递(八)ViTAE:COCO人体姿态估计新模型取得最高精度81.1AP
计算机视觉论文速递(七)FAN:提升ViT和CNN的鲁棒性和准确性1. 摘要2. 研究背景3. 方法概述4. 性能比较5. 结论FAN论文:Understanding The Robustness in Vision Transformers 代码已开源:ViTAE-Transformer/ViTPose1. 摘要 人体姿态估计是计算机视觉领域的基本研究问题之一,具有很广泛的实际应用,例如医疗健康领域的行为分析、元宇宙领域的AIGC内容生成等。但是,由于人体姿态丰富,人物衣着表观变化多样,光照和原创 2022-05-31 09:00:00 · 1476 阅读 · 0 评论 -
计算机视觉论文速递(七)FAN:提升ViT和CNN的鲁棒性和准确性
计算机视觉论文速递(七)FAN:提升ViT和CNN的鲁棒性和准确性1. 摘要2. 引言3. Fully Attentional Networks3.1 Self-Attention的原理Token mixingChannel processing3.2 Self-Attention有趣的特性3.3 Information Bottleneck视角看问题?PropositionRemarkMulti-head Self-attention3.4 Fully Attentional Networks.注意力特征原创 2022-05-22 09:00:00 · 549 阅读 · 0 评论 -
计算机视觉论文速递(六)GANet: A Keypoint-based Global Association Network for Lane Detection 基于关键点建模的全局关联网络
计算机视觉论文速递(六)GANet: A Keypoint-based Global Association Network for Lane Detection 基于关键点建模的全局关联网络1. 摘要2. 方法动机3. 方法介绍3.1 车道线构建-全局关键点关联3.1.1关键点预测3.1.2 偏移量预测3.1.3 起始点采样3.2 车道线感知的特征增强模块(LFA)4. 实验5. 结论YOLO-Pose论文:MiniViT:Compressing Vision Transformers wit原创 2022-05-23 09:00:00 · 2517 阅读 · 2 评论 -
计算机视觉论文速递(五)MiniViT:Compressing Vision Transformers with Weight Multiplexing 极致压缩视觉Transformer
计算机视觉论文速递(五)MiniViT:Compressing Vision Transformers with Weight Multiplexing 极致压缩视觉Transformer1. 摘要2. 引言3.相关工作3.1 Vision TransformerMSAMLP3.2 Weight Sharing4. 方法4.1 Weight Multiplexing4.1.1 Weight Transformation4.1.2 Transformation for MSA4.1.3 Transformat原创 2022-05-17 09:00:00 · 1003 阅读 · 0 评论 -
计算机视觉论文速递(四)Dynamic Sparse R-CNN:Sparse R-CNN升级版,使用ResNet50也能达到47.2AP
计算机视觉论文速递(三)YOLO-Pose:《Enhancing YOLO for Multi Person Pose .....》实时性高且易部署的姿态估计模型1. 摘要2. 引言3. 相关工作3.1 General Object Detection3.2 Label Assignment3.3 Dynamic Convolution4. Dynamic Sparse R-CNN4.1 回顾Sparse R-CNN4.2 Dynamic Label Assignmentunits增加策略4.3 Dynam原创 2022-05-15 09:00:00 · 1124 阅读 · 0 评论 -
计算机视觉论文速递(三)YOLO-Pose:《Enhancing YOLO for Multi Person Pose .....》实时性高且易部署的姿态估计模型
计算机视觉论文速递(三)YOLO-Pose:《Enhancing YOLO for Multi Person Pose .....》实时性高且易部署的姿态估计模型1. 简介2. YOLO-Pose方法2.1 总览2.2 Anchor based multi-person pose formulation2.3 IoU Based Bounding-box Loss Function2.4 Human Pose Loss Function Formulation2.5 Test Time Augmentat原创 2022-05-08 09:00:00 · 2862 阅读 · 13 评论 -
计算机视觉论文速递(二)NAT:超越 Swin、ConvNeXt 的Neighborhood Attention Transformer
计算机视觉论文速递(二)NAT:超越 Swin、ConvNeXt 的Neighborhood Attention Transformer1. 摘要2. 引言3. 主要贡献4. 本文方法4.1 Neighborhood Attention4.2 Neighborhood Attention Transformer5. 实验结果5.1 分类实验5.2 目标检测5.3 语义分割5.4 可视化分析NAT论文:NAT:Neighborhood Attention Transformer1. 摘要 本文提出了原创 2022-05-03 09:00:00 · 680 阅读 · 0 评论 -
计算机视觉论文速递(一)SepViT:Separable Vision Transformer 可分离视觉Transformer
计算机视觉论文速递(一)SepViT:可分离视觉Transformer1. 摘要2. 简介3. 相关工作3.1 ViTs3.2 轻量化模型4. SepViT4.1 概览4.2 深度可分离自注意力机制4.2.1 Depthwise Self-Attention(DWA)4.2.2 Window Token Embedding4.2.3 Window Token Embedding4.3 Grouped Self-Attention4.4 SepViT Block4.5 Architecture Config原创 2022-04-29 09:00:00 · 1125 阅读 · 4 评论