50、计算机视觉中的Transformer模型：原理与实践

wind

于 2025-08-27 13:35:16 发布

阅读量35

点赞数

CC 4.0 BY-SA版权

分类专栏： PyTorch深度学习入门指南文章标签： Transformer 计算机视觉 ViT

本文链接：https://blog.youkuaiyun.com/wind/article/details/151166544

PyTorch深度学习入门指南专栏收录该内容

58 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

计算机视觉中的Transformer模型：原理与实践

1. Einops库

俗话说“条条大路通罗马”，将像素重新排列成序列的方法不止一种。有一种替代方法是使用名为 einops 的库。它非常简洁（可能甚至有点过于简洁），能让你用几行代码实现复杂的排列操作。不过，要掌握它的使用方法可能需要一些时间。

虽然这里不使用它，但如果你感兴趣，下面是与 extract_image_patches() 函数等效的 einops 代码：

# Adapted from https://github.com/lucidrains/vit-pytorch/blob/
# main/vit_pytorch/vit_pytorch.py
# !pip install einops
from einops import rearrange
patches = rearrange(padded_img,
                    'b c (h p1) (w p2) -> b (h w) (p1 p2 c)',
                    p1 = kernel_size, p2 = kernel_size)