- 博客(2)
- 收藏
- 关注
原创 如何理解Vision Transformer中的个数和维度
假设图像的大小为 \(224 \times 224\) 像素,如果补丁大小为 \(16 \times 16\),那么图像可以划分为 \(196\) 个补丁,每个补丁就是一个 token,因此“个数”就是 196。假设图像有 3 个通道(RGB),则每个补丁的维度为 \(16 \times 16 \times 3 = 768\)。每个头的维度 (head_dim):假设 embedding_dim 是 768,num_heads 是 12,则每个头的维度为 \(768 / 12 = 64\)。
2024-11-01 10:32:14
361
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人