来个顶会-优快云博客

原创 Retinexformer 核心公式解读

2024-11-13 16:51:07 247 1

原创如何理解Vision Transformer中的个数和维度

假设图像的大小为 \(224 \times 224\) 像素，如果补丁大小为 \(16 \times 16\)，那么图像可以划分为 \(196\) 个补丁，每个补丁就是一个 token，因此“个数”就是 196。假设图像有 3 个通道（RGB），则每个补丁的维度为 \(16 \times 16 \times 3 = 768\)。每个头的维度 (head_dim)：假设 embedding_dim 是 768，num_heads 是 12，则每个头的维度为 \(768 / 12 = 64\)。

2024-11-01 10:32:14 677

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Retinexformer 核心公式解读

原创 如何理解Vision Transformer中的个数和维度

空空如也

空空如也

原创如何理解Vision Transformer中的个数和维度