- 博客(15)
- 收藏
- 关注
原创 LESA可以让你的低计算力模型也可以有局部信息和上下文信息
虽然skip connection缓解了这个问题,但作者认为仍然需要设计一个具有更强表示能力的Local term。
2022-02-28 19:10:30
2999
原创 CV案例解析:YOLO——从v1到v5
要想透彻了解YOLO系列模型的运行原理,需要从V1版本开始讲起,看作者如何迭代更新,一步步改良YOLO,在这个学习过程中,也能学到很多相关的目标检测知识。
2022-01-20 14:19:43
624
原创 ResT An Efficient Transformer for Visual
这篇文章提出了一个有效的多尺度视觉Transformer,称为ResT,可以作为图像分类的主干网络,大多Transformer模型使用标准的Transformer block,只能处理固定尺寸的图像。
2022-01-05 08:41:24
375
原创 基于Vision Transformer的视频哈希检索识别虚假视频
传统的虚假视频的检测方法是利用哈希算法进行图像检索,由于相似视频的哈希编码相互联系紧密,很难区分出细节部分,这给识别工作造成了较大的困难。针对这个问题,研究人员提出了利用基于vision Transformer模型的视频哈希检索方法有效地识别了视频中的可疑部分。
2022-01-04 10:14:07
4464
1
原创 浅析Transformer为什么在多模态任务中受欢迎的原因——以kaggle热门比赛为例
为什么transformer为什么能适用于各种各样的领域,取得不菲的成绩,而cv领域的卷积算子却做不到,本文将以kaggle的一个热门比赛为例,浅析 transformer在多模态领域表现优秀的原因。
2022-01-04 09:54:27
1412
原创 超越CNN的ViT模型及其应用前景
本文首先比较 ViT 模型与传统计算机视觉模型 CNN 的不同,详细指出 ViT 模型的优点和好处,介绍了 ViT 模型的各种变体、扩展和应用前景。
2022-01-04 09:50:47
3500
原创 英伟达提出AdaViT:出于DeiT而又快于DeiT
自从Vision Transformer(ViT)被提出以来,Transformer已经成为一种流行的神经网络架构,并广泛的应用到计算机视觉领域之中,如图像分类、目标检测、图像生成和语义分割等任务。
2022-01-04 09:42:43
1579
原创 Panoptic SegFormer 全景分割
语义分割和实例分割是两个重要且相关的视觉问题。利用它们之间的潜在关系,全景分割将语义分割和实例分割两个任务进行统一,在同一个全景分割模型中,同时处理语义分割和实例分割。
2022-01-04 09:34:59
708
原创 利用数据增广进一步提升COVID-19患者的胸透检测正确率
目前普遍采用的检测方法是核酸检测,但是其误报率较高且耗时较长。为了解决这个问题,胸部X光检测结合深度学习的分类算法凭借其误报率低、价格低廉、安全性好将成为核酸检测的理想替代品。
2021-12-24 09:35:51
1216
原创 CNN和Transformer相结合的模型
尽管CNN存在很多优势,但是其感受野通常很小,不利于捕获全局特征。视觉Transformer由于能够捕获一张图片的全局信息,因此在许多视觉任务中超越许多CNN结构。
2021-12-24 09:25:12
11190
原创 你认为CNN的归纳偏差,Transformer它没有吗?
最近,为了解决卷积神经网络的一些普遍存在的缺点,如对于上下文信息的建模差、全局信息理解差等缺点,有研究者开发了Vision Transformer和MLP-based模型。
2021-12-21 14:54:26
1674
2
原创 一文详解你必须熟知的实例分割模型 Mask R-CNN
实例分割(instance segmentation)是机器视觉研究中比较重要、复杂和具有挑战性的领域之一。在机器人,自动驾驶,监视等领域均有应用。
2021-12-20 14:29:34
698
原创 深度解读Vision Transformer的自监督学习
这篇文章引入了一种自监督的视觉表示模型 BEIT,它代表Vision Transformer的双向编码表示。
2021-12-17 15:08:01
929
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人