深度学习中所指的维度该怎么理解？

最新推荐文章于 2024-09-06 16:20:54 发布

大抵

最新推荐文章于 2024-09-06 16:20:54 发布

阅读量2.4k

点赞数 4

CC 4.0 BY-SA版权

分类专栏： pytorch学习知识文章标签：深度学习人工智能

本文链接：https://blog.youkuaiyun.com/weixin_44912950/article/details/131869958

pytorch学习知识专栏收录该内容

3 篇文章

订阅专栏

文章介绍了PyTorch中张量的概念，包括其作为多维数组的性质，维度、秩和大小的定义。通过举例说明了不同阶张量，如0阶标量、1阶向量、2阶矩阵和更高阶张量，并阐述了如何通过.dim参数指定操作的维度。此外，还提到了形状获取方法.shape以及unsqueeze在调整张量维度中的作用，特别是在通道注意力模块中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在PyTorch中，张量（Tensor）是多维数组，其中包含了多个元素。其中每个维度（dimension）都对应着不同的轴。维度用于描述数据在各个方向上的大小或者说是用来描述张量中数据排列的方式。可以将张量想象成一个多维网格，其中每个网格上的元素都对应着一个数值。一个张量的维度数量被称为它的“阶”或“秩”，而每个维度都有一个大小（size），表示该维度上可以容纳的元素数量。

考虑一个简单的例子：一个2x3的矩阵（2行，3列）可以表示为如下的网格形式：

[[a, b, c],
 [d, e, f]]

在这个例子中，矩阵有两个维度：行和列。a, b, c, d, e, f是网格中的元素。

在PyTorch中，可以使用dim参数来指定操作在哪个维度上进行。dim=0表示操作沿着第一个维度（行）进行，dim=1表示操作沿着第二个维度（列）进行，以此类推。

例如，对于一个3x4x5的张量：

x = torch.tensor([[[1, 2, 3, 4, 5],
                   [6, 7, 8, 9, 10],
                   [11, 12, 13, 14, 15],
                   [16, 17, 18, 19, 20]],
                  
                  [[21, 22, 23, 24, 25],
                   [26, 27, 28, 29, 30],
                   [31, 32, 33, 34, 35],
                   [36, 37, 38, 39, 40]],
                  
                  [[41, 42, 43, 44, 45],
                   [46, 47, 48, 49, 50],
                   [51, 52, 53, 54, 55],
                   [56, 57, 58, 59, 60]]])

dim=0：代表3个元素的维度，每个元素是一个4x5的矩阵。
dim=1：代表4个元素的维度，每个元素是一个5维的向量。
dim=2：代表5个元素的维度，每个元素是一个标量。

0阶张量（标量）：
- 0阶张量是一个单独的数字或数值，没有维度。
- 示例：x = 5
1阶张量（向量）：
- 1阶张量是有序的一维数组，具有一个维度。
- 示例：x = [1, 2, 3, 4]
- 在PyTorch中，形状表示为：(4,)
2阶张量（矩阵）：
- 2阶张量是一个二维数组，具有两个维度：行和列。
- 示例：x = [[1, 2], [3, 4]]
- 在PyTorch中，形状表示为：(2, 2)
3阶张量（三维数组）：
- 3阶张量是一个具有三个维度的数组，例如图片数据，其中维度可以理解为高度、宽度和通道数。
- 示例：x = [[[1, 2], [3, 4]], [[5, 6], [7, 8]]]
- 在PyTorch中，形状表示为：(2, 2, 2)
更高阶张量：
- 除了上述示例，张量可以拥有任意数量的维度。例如，视频数据可以表示为4阶张量，其中的维度可以理解为帧数、高度、宽度和通道数。

在PyTorch中，可以通过.shape属性来获取张量的形状，这将返回一个包含各维度大小的元组。

例如，对于一个3x4的张量x，可以通过x.shape获取其形状信息：(3, 4)，表示有3行和4列。

在通道注意力模块代码中，维度是指张量在每个轴上的大小。例如，avgout和maxout都是形状为(batch_size, channel, 1, 1)的张量，其中channel表示通道数。在代码中使用unsqueeze方法是为了在avgout和maxout张量上添加额外的维度，使得它们在channel维度上与其他张量保持一致，以便后续的计算可以正确进行。