VIT技术专栏
文章平均质量分 91
VIT技术专栏
强化学习曾小健3
"主号:强化学习曾小健;副号:强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。优快云全站80强博客、总近500w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
VIT里面的patch是怎么生成的,原理是什么
将图像划分为固定大小的 Patch(P×P将每个Patch 展平为 1D 向量。通过线性变换将1D 向量嵌入到 Transformer 的输入维度 DDD。这种方法的核心思想是将图像从 2D 表示转化为 1D 的序列表示,从而使 Transformer 模型能够处理图像数据。相比 CNN,ViT 的 Patch 生成更简单直接,但依赖于 Transformer 的全局建模能力。Patch 的大小和嵌入维度是 ViT 的关键超参数,会显著影响模型的性能和计算复杂度。为什么每一个patch是一个p。原创 2024-11-30 18:25:43 · 1793 阅读 · 0 评论 -
详细解释VIT,和NLP中的transformer有哪些不同
T) 将 Transformer 架构成功地应用于计算机视觉任务,通过将图像视为补丁序列并利用自注意力机制来捕捉全局特征。这种方法与传统卷积神经网络(CNN)相比,在大规模数据集上表现出色,但对数据量的需求较高。在小数据集上,CNN 通常表现更佳。NLP 中的 Transformer 则专注于处理文本数据,其结构和功能设计上更侧重于语言特性。原创 2024-11-29 21:04:19 · 1150 阅读 · 0 评论
分享