
计算机视觉
文章平均质量分 82
Law-Yao
数字信号处理与人工智能相关的软硬件系统实现工作。
展开
-
AdaViT——自适应选择计算结构的动态网络
Paper地址:https://arxiv.org/abs/2111.15668GitHub链接:GitHub - MengLcool/AdaViT: Official implementation of AdaViTViT基于其自身结构的特点或优势,具备较好的抽象语义表达或特征表征能力:然而,针对不同难易程度的样本,ViT实际计算所需的Patch数量、Attention head数目或网络层数可以存在区别,因此可构成样本驱动形式的条件计算。 AdaViT通过设计动态网络结构,可根据输入样本的难易、自适应原创 2022-07-02 20:36:27 · 1044 阅读 · 0 评论 -
ViT Slimming——联合结构搜索与Patch Selection
Paper地址:https://arxiv.org/abs/2201.00814GitHub链接:https://github.com/Arnav0400/ViT-SlimViT Slimming通过结构搜索与Patch selection的结合,一方面实现了多维度、多尺度结构压缩,另一方面减少了Patch或Token的长度冗余,从而有效减少参数量与计算量。具体而言,为ViT结构中流动的Tensor定义了相应的Soft mask,在计算时将二者相乘,并在Loss function中引入Soft mask的L原创 2022-06-03 16:13:55 · 1016 阅读 · 0 评论 -
Focal and Global Knowledge Distillation——目标检测网络的知识蒸馏
Paper地址:https://arxiv.org/abs/2111.11837GitHub链接:https://github.com/yzd-v/FGD方法FGKD(Focal and Global Knowledge Distillation)通过Focal distillation与Global distillation的结合,兼顾了Instance-level信息、Spatial/Channel Attention以及全局相关性信息。首先定义前背景分离Mask、Attenti原创 2022-05-01 22:44:04 · 1536 阅读 · 3 评论 -
MetaTransformer——ViT标准模型结构
Paper地址:https://arxiv.org/abs/2111.11418GitHub链接:GitHub - sail-sg/poolformer: PoolFormer: MetaFormer is Actually What You Need for Vision (CVPR 2022 Oral)方法主流Vision Transformer (ViT)模型的基本模块包含MSA与FFN,其中MSA通过Attention执行Token间相关性建模,实现Context信息编码。由于MSA原创 2022-04-22 22:39:50 · 2883 阅读 · 0 评论 -
ViT结构优化——Searching the Search Space (S3 NAS)
Paper地址:https://arxiv.org/abs/2111.14725GitHub链接:https://github.com/microsoft/Cream概述网络结构搜索(NAS: Neural-network Architecture Search)的设计收敛,首先取决于搜索空间的设计收敛,其次取决于搜索算法的设计收敛,最终结合平台约束、生成一系列满足Trade-off的优化解(构成Pareto-front)。针对Vision-Transformer,为了实现较之AutoFor原创 2022-03-06 20:04:59 · 3641 阅读 · 0 评论