
机器视觉
文章平均质量分 73
蓝色兔子
三人行,必有我师
展开
-
零基础手把手训练实践-图像分类模型-基于达摩院modelscope
图像分类模型是最简单的,也是最基础的计算机视觉任务,应用非常广泛。本文将手把手介绍零基础训练图像分类模型的实践过程。文章主要介绍如何在标注好的数据集基础上,进行微调,使模型能够在新的数据上重新适配一个新的分类任务。原创 2023-04-14 06:01:02 · 5944 阅读 · 1 评论 -
ViT Transformer论文阅读笔记
首次提出使用transformer进行分类:把输入图像直接划分为token,位置编码为可学习的token,额外增加一个分类token,最后使用head预测。原创 2022-12-14 17:24:52 · 306 阅读 · 0 评论 -
Next-ViT论文详解
由于复杂的注意力机制和模型设计,大多数现有的ViTs在现实的工业部署场景中不能像CNNs那样高效地执行,例如TensorRT和CoreML。视觉神经网络能否设计为与CNN一样快的推理和与ViT一样强大的性能?最近很多工作试图设计CNN-Transformer混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。为了结束这些,本文作者提出了在现实工业场景中有效部署的,即Next-ViT,从延迟/准确性权衡的角度来看,它在CNN和ViT中均占主导地位。翻译 2022-12-14 00:23:31 · 903 阅读 · 0 评论