ViT-B参数量计算

最新推荐文章于 2025-09-11 02:28:15 发布

原创

最新推荐文章于 2025-09-11 02:28:15 发布 · 1.2w 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#cv

本文详细介绍了ViT-B模型的参数量计算，包括Patch embedding的768*768参数，Transformer block中注意力机制和FFN的参数，以及Layernorm的gamma和beta参数。总计约86M参数。

ViT-B: layers=12,hidden_size=768,MLP_size=3072,heads=12,params=86M,image_size=384+1

参考：https://blog.youkuaiyun.com/weixin_43922901/article/details/102602557

1 Patch embedding

在这里插入图片描述
patch_dim = 16163, dim = hidden_size = 768
所以参数量为768*768

2 Transformer block(attention+FFN)

attention: 这一部分的参数主要来源于x->q,k,v所要进行的linear变换，即 $w_q$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zkxhlbt

关注关注

5
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

详解vit_base_patch16_224

强化学习曾小健

08-20

2780

ViT-Base模型的核心思想是将输入图像划分为多个小块（patches），并使用Transformer架构来处理这些小块。具体来说，ViT-Base使用16x16像素的patch大小，输入图像的尺寸为224x224像素，这意味着每张图像将被划分为49个patch（22416×22416=14×14=19616224×16224=14×14=196个patch）。ViT-Base（ViT-B/16）通过将图像处理任务转化为序列处理任务。

CV开启大模型时代！谷歌发布史上最大ViT：220亿参数，视觉感知力直逼人类

weixin_48827824的博客

04-13

1265

ViT模型何时才能破万亿？Transformer无疑是促进自然语言处理领域繁荣的最大功臣，也是GPT-4等大规模语言模型的基础架构。不过相比语言模型动辄成千上万亿的参数量，计算机视觉领域吃到Transformer的红利就没那么多了，目前最大的视觉Transformer模型ViT-e的参数量还只有40亿参数。最近谷歌发布了一篇论文，研究人员提出了一种能够高效且稳定训练大规模Vision Transformers(ViT)模型的方法，成功将ViT的参数量提升到220亿。

1 条评论您还未登录，请先登录后发表或查看评论

Segment Anything模型检查点详解：ViT-H/L/B三版本性能对比

最新发布

gitblog_00265的博客

09-11

479

在计算机视觉领域，Segment Anything Model（SAM）作为Meta AI推出的突破性图像分割模型，提供了三种不同规模的Vision Transformer（ViT）骨干网络版本：ViT-H（Huge）、ViT-L（Large）和ViT-B（Base）。这种多版本设计满足了不同应用场景下的性能与效率平衡需求。 > **痛点场景**：你是否曾面临这样的困境？在部署图像分割模型时，要...

【指标原理】CNN和ViT的FLOPs、参数量计算

cjy_colorful0806的博客

03-14

4105

FLOPs（Floating Point Operations）是浮点运算次数的缩写，其计算包括所有的浮点数加法、减法、乘法和除法运算。在深度学习领域，FLOPs特别用来量化一个神经网络模型进行一次前向传播所需的浮点运算数量，这对于评估模型的计算效率和资源需求非常有用。

谷歌「钞」能力 | 最强ViT模型来了！220亿参数

CV_Autobot的博客

02-19

2180

本文提出了迄今为止最大的密集视觉 ViT 模型 ViT- 22B，具有220亿参数。并发现超大 ViT 病态训练的不稳定性，这种不稳定性组织了模型尺度的进一步扩展。作者通过仔细设计模型，以较高的效率实现模型并行训练。

Vit、Swin、CAT、Davit计算量计算方式

qq_61902743的博客

03-23

723

计算几个典型Transformer架构注意力的计算量，包括VIT，swin,CAT,Davit

【亲测免费】深入解析CLIP-VIT-B/32模型的参数设置

gitblog_02088的博客

12-31

1518

在现代计算机视觉领域，模型的参数设置对于最终效果的影响至关重要。CLIP-VIT-B/32模型，作为OpenAI研发的开创性视觉模型，其参数的合理配置直接影响着模型的泛化能力和准确性。本文旨在详细解读CLIP-VIT-B/32模型的参数设置，帮助用户深入理解各参数的功能、取值范围及其对模型性能的影响，从而更好地发挥模型潜力。 ## 参数概览 CLIP-VIT-B/32模型的参数众多，但以下几项...

hugging face的models-openai-clip-vit-large-patch14文件夹

03-08

ViT-large-patch14表示的是一个较大的Transformer版本，它使用14x14的图像块进行处理，这通常意味着模型具有更高的参数量和更强的表达能力。 `models-openai-clip-vit-large-patch14`文件夹的内容可能包含以下几个...

segment-anything-ViT-B SAM model模型

07-27

官方提供的SAM模型包含了三个不同版本，分别对应不同参数量的ViT模型，由小到大依次是vit_b、vit_l和vit_h。其中，vit_b作为参数量最小的版本，虽然在性能上可能略逊于其他两个版本，但它在资源消耗和运算速度上有...

segment-anything-ViT-L SAM model模型part2

07-27

ViT-L模型的参数量和计算能力处于一个平衡点，既能够处理复杂的分割任务，又能够在大多数硬件上保持高效的运行速度。本资源所涉及的“segment-anything-ViT-L SAM model模型part2”是ViT-L模型的第二部分文件。...

模型M-BERT-Base-ViT-B.zip

04-07

在“Base”配置下，它可能具有适中的参数量，以平衡性能和计算效率。 **文件名称列表** - **M-BERT-Base-ViT-B.pt**：这是一个PyTorch格式的模型权重文件，通常包含了模型训练后的参数，可以加载到相应的模型结构中...

深度学习中参数量与计算量的理解

Monster_H7的博客

07-18

4303

接下来要分别概述以下内容：　　１　首先什么是参数量，什么是计算量　　２　如何计算　参数量，如何统计　计算量　　３　换算参数量，把他换算成我们常用的单位，比如:mb 　　４　对于各个经典网络，论述他们是计算量大还是参数两，有什么好处　　５　计算量，参数量分别对显存，芯片提出什么要求，我们又是怎么权衡１　首先什么是计算量，什么是参数量 　　计算量对应我们之前的时间复杂度，参数量对应于我们之前的空间复杂度，这么说就很明显了也就是计算量要看网络执行时间的长短，参数量要看占用显存的量.

Vision Transformer（ViT-Base-16）处理CIFAR-100模式识别任务（基于Pytorch框架）

Mathematic_Van的博客

02-28

1万+

ViT-B-16是Vision Transformer（ViT）模型的一个变体，由Google在2020年提出。ViT模型是一种应用于图像识别任务的Transformer架构，它采用了在自然语言处理（NLP）中非常成功的Transformer模型，并将其调整以处理图像数据。

多模态大模型的技术底座：ViT的baseline

大F子的智能小课

03-15

1023

论文研究的是谷歌和，同时加上和。

媲美全局注意力！百度、港大提出双边局部注意力ViT：引入特征空间，显著降低计算量...

Paper weekly

04-28

883

©作者|马昊宇来源|机器之心在这项研究中，来自百度研究院和香港大学的研究者重新思考了局部自注意力机制，提出了特征空间局部注意力（feature-space local attention 或简称 FSLA）。Vision Transformer 舍弃了 ConvNet 先验信息，通过引入自注意力机制对远距离特征依赖进行建模，提升了模型的表征能力。然而 Vision...

使用ViT-B-32模型提升图像分类任务的效率

gitblog_02826的博客

12-23

600

在当今的数字化时代，图像分类任务在各个领域中扮演着至关重要的角色。无论是医疗诊断、自动驾驶，还是社交媒体的内容推荐，图像分类技术都在帮助我们更好地理解和处理视觉信息。然而，随着数据量的爆炸性增长，传统的图像分类方法在效率和准确性上面临着巨大的挑战。为了应对这些挑战，我们需要更加高效和智能的解决方案。本文将介绍如何使用ViT-B-32模型来提升图像分类任务的效率。ViT-B-32模型是一种基于T...

参数量下降85%，性能全面超越ViT：全新图像分类方法ViR

深度学习技术前沿

01-12

611

来源：机器之心ViT 还不够完美？来自华东师范大学等机构的研究者提出了全新的图像分类方法 ViR，在模型和计算复杂性方面都优于 ViT。近一年来，视觉 Transformer(ViT)在图...

深入掌握 ViT-B-32__openai 模型：全面实战指南

gitblog_02464的博客

12-26

845

在当今的计算机视觉领域，模型的发展日新月异，ViT-B-32__openai 模型凭借其卓越的性能和灵活的应用，成为了众多研究者和开发者的首选。本教程旨在从零基础开始，逐步深入，帮助读者全面掌握 ViT-B-32__openai 模型的应用，从入门到精通。 ## 基础篇 ### 模型简介 ViT-B-32__openai 是基于 CLIP 模型（Contrastive Language-Im...

Visual Transformer (ViT)模型详解

12-31

8万+

ViT是2020年Google团队提出的将Transformer应用在图像分类的模型，虽然不是第一篇将transformer应用在视觉任务的论文，但是因为其模型“简单”且效果好，可扩展性强（scalable，模型越大效果越好），成为了transformer在CV领域应用的里程碑著作，也引爆了后续相关研究。

CLIP-ViT-B

04-03

CLIP 是由 OpenAI 提供的一种用于连接图像和文本的多模态模型框架，而 CLIP-ViT-B 则是基于 Vision Transformer (ViT) 的一种变体。以下是关于 CLIP ViT-B 模型的一些细节及其使用方法： ### CLIP ViT-B Model Details #### 架构设计 CLIP-ViT-B 使用的是 Vision Transformers (ViT)，其架构具有强大的表示能力，并且能够高效处理视觉数据[^1]。具体来说，“B”代表 Base 版本，这意味着该模型拥有相对适中的参数量，在性能与计算资源之间取得了较好的平衡。 #### 参数规模 CLIP-ViT-B 基础版本大约有 **86M** 参数数量。这一大小使得它既适合研究用途也适用于实际部署场景下的推理操作。 #### 输入分辨率对于输入图片尺寸而言，标准配置下通常设定为 224x224 或者更高解析度如 384x384 来提升精度表现效果。 ### Installation and Usage Methods 要安装并使用 CLIP 库以及加载预训练好的 CLIP-ViT-B 模型可以按照如下方式进行设置: ```bash pip install git+https://github.com/openai/clip.git ``` 之后可以通过 Python 脚本来调用此模型来进行图文匹配任务或其他相关功能实现: ```python import torch from PIL import Image import clip device = "cuda" if torch.cuda.is_available() else "cpu" model, preprocess = clip.load("ViT-B/32", device=device) image = preprocess(Image.open("example_image.jpg")).unsqueeze(0).to(device) text = clip.tokenize(["a diagram", "a dog", "a cat"]).to(device) with torch.no_grad(): image_features = model.encode_image(image) text_features = model.encode_text(text) logits_per_image, logits_per_text = model(image, text) probs = logits_per_image.softmax(dim=-1).cpu().numpy() print("Label probs:", probs) # 输出预测概率分布情况 ``` 上述代码片段展示了如何利用 PyTorch 和 PIL 加载一张测试图片，并将其转换成符合 CLIP 所需格式的数据；接着定义了一些候选描述语句作为对比选项之一；最后执行前向传播得到最终分类结果的概率值矩阵。 ### Case Applications CLIP 可广泛应用于多个领域之中，比如搜索引擎优化、广告推荐系统等领域内的跨媒体检索服务提供技术支持。例如在一个电商平台上，当用户上传了一张商品照片时，后台可以根据这张照片自动为其找到最贴近的商品标签或者关联产品列表展示给顾客查看选购。 ---