transformer用作分类任务

原创

于 2024-12-23 20:58:24 发布 · 1.2k 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #分类 #深度学习

系列博客目录

文章目录

系列博客目录
1、在手写数字图像这个数据集上进行分类

1、在手写数字图像这个数据集上进行分类

在手写数字图像数据集（例如MNIST数据集）上使用Transformer进行分类任务时，基本的流程和文本分类任务类似，但有一些不同之处，因为MNIST是一个图像分类任务。我们可以将MNIST图像的处理方法适应到Transformer模型中。下面是如何在MNIST数据集上使用Transformer进行手写数字分类的步骤：

1. 数据准备

MNIST数据集包含28×28像素的灰度图像，每个图像表示一个手写数字（0到9）。首先，我们需要将这些图像转换为适合Transformer模型输入的格式。

标准化：通常，将图像的像素值（0到255）缩放到[0, 1]范围内，或者标准化到均值为0，方差为1的分布。
展平图像：通常，Transformer要求输入为序列数据，但图像本身是二维数据（28×28），因此，我们可以将每个图像展平为一个784维的向量（28×28 = 784）。

2. 将图像转化为适合Transformer的输入

将图像展平后，我们可以将其分割成多个小块（patches）。这些小块可以看作是图像的“tokens”，类似于文本中的单词或子词。在这一步，图像被切割成大小为16x16（或者其他大小）的patch，并将每个patch展平为一个向量。
例如，MNIST的28x28图像可以被切分为16x16的patches。每个patch会被展平成一个向量，然后这些向量作为Transformer模型的输入。

3. 位置编码

和文本数据一样，图像也需要位置编码。尽管图像的空间信息可以通过卷积网络来处理，但在Transformer模型中，我们需要给每

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。