目标检测
文章平均质量分 89
fling_forever
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
视觉Transformer (三) VATT: Transformers for Multimodal Self-Supervised Learning from Video, Audio,Text
文章来源paper:https://arxiv.org/pdf/2104.11178Motivation作者提出了一个使用无卷积transformer架构从无标签数据中学习多模态表示的框架。具体来说,Video-AudioText Transformer (VATT)将原始信号作为输入,并提取足够丰富的多模态表征,从而有利于各种下游任务(例如检测、分类、跟踪)。作者使用多模态对比损失从头到尾训练VATT,并通过视频动作识别、音频事件分类、图像分类和文本到视频检索等下游任务评估其性能。此外,作者研究了一原创 2021-06-24 21:10:28 · 3798 阅读 · 5 评论 -
视觉Transformer (二) End-to-End Object Detection with Transformers
文章来源paper: https://arxiv.org/pdf/2005.12872.pdf,code: https://github.com/facebookresearch/detrMotivation作者提出了一种新的方法,将目标检测视为一个直接预测的问题。新框架称为DETR,主要组成部分是一个基于集合(set-based)的全局损失用来强制通过双部匹配得到唯一预测,以及一个Transformer编码器-解码器架构。给定一个固定的小的学习目标查询集,DETR找出目标和全局图像上下文之间的关系原创 2021-06-24 14:57:38 · 421 阅读 · 1 评论 -
linux16.04 从零开始搭建maskrcnn (!!亲测有效!!)
文章参考:https://github.com/pytorch/vision/blob/temp-tutorial/tutorials/torchvision_finetuning_instance_segmentation.ipynb环境搭建:1. 安装anaconda;2. 在anaconda中创建一个新的环境 (比如obj);3. 在obj环境中安装所需要的各种模块;...原创 2019-09-16 22:28:59 · 1798 阅读 · 1 评论
分享