Mindspore 初学教程 - 3. Tensor 张量

最新推荐文章于 2025-04-12 18:08:06 发布

coyote_xujie

最新推荐文章于 2025-04-12 18:08:06 发布

阅读量923

点赞数 22

分类专栏： mindspore 文章标签： python

本文链接：https://blog.youkuaiyun.com/Wolf_xujie/article/details/141298330

版权

mindspore 专栏收录该内容

6 篇文章

订阅专栏

张量（Tensor）是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数，这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 $n$ 维空间内，有 $n^{r}$ 个分量的一种量，其中每个分量都是坐标的函数，而在坐标变换时，这些分量也依照某些规则作线性变换。 $r$ 称为该张量的秩或阶（与矩阵的秩和阶均无关系）。

张量是一种特殊的数据结构，与数组和矩阵非常相似。张量（Tensor）是MindSpore 网络运算中的基本数据结构。

一、创建张量

张量的创建方式有多种，构造张量时，支持传入Tensor、float、int、bool、tuple、list 和 numpy.ndarray 类型。

根据数据直接生成：可以根据基本数据类型创建张量，数据类型可以设置或者通过框架自动推断。
从 NumPy 数组生成：可以从NumPy数组创建张量。
使用 init 初始化器构造张量：使用init初始化器对张量进行初始化时，支持传入的参数有init、shape、dtype。通常来说 init 主要用于并行模式下的延后初始化，在正常情况下不建议使用init对参数进行初始化。
- init: 支持传入initializer的子类。如 One() 和 Normal()。
- shape: 支持传入 list、tuple、 int。
- dtype: 支持传入mindspore.dtype。
继承另一个张量的属性，形成新的张量

# 根据数据直接生成
def gen_tensor_base():
    data = [1, 0, 1, 0]
    x_data = Tensor(data)
    show_tensor_attr(x_data)

# 从 NumPy 数组生成
def gen_tensor_numpy():
    data = [1, 0, 1, 0]
    np_array = np.array(data)
    x_np = Tensor(np_array)
    show_tensor_attr(x_np)

# 使用 init 初始化器构造张量
def gen_tensor_init():
    tensor1 = mindspore.Tensor(shape=(2, 2), dtype=mindspore.float32, init=One())
    # Initialize a tensor from normal distribution
    tensor2 = mindspore.Tensor(shape=(2, 2), dtype=mindspore.float32, init=Normal())

    print("tensor1:")
    show_tensor_attr(tensor1)

    print("tensor2:")
    show_tensor_attr(tensor2)

# 继承另一个张量的属性，形成新的张量
def gen_tensor_extend():
    data = [1, 0, 1, 0]
    x_data = Tensor(data)

    x_ones = ops.ones_like(x_data)
    print(f"Ones Tensor: \n {x_ones} \n")

    x_zeros = ops.zeros_like(x_data)
    print(f"Zeros Tensor: \n {x_zeros} \n")

![请添加图片描述](https://i-blog.csdnimg.cn/direct/347e9a5620314495a2dcb04577de97f6.png)

二、张量的属性

张量的属性包括形状、数据类型、转置张量、单个元素大小、占用字节数量、维数、元素个数和每一维步长。

形状（shape）：Tensor的 shape，是一个 tuple。
数据类型（dtype）：Tensor的 dtype，是 MindSpore 的一个数据类型。
单个元素大小（itemsize）： Tensor 中每一个元素占用字节数，是一个整数。
占用字节数量（nbytes）： Tensor 占用的总字节数，是一个整数。
维数（ndim）： Tensor的秩，也就是len(tensor.shape)，是一个整数。
元素个数（size）： Tensor 中所有元素的个数，是一个整数。
每一维步长（strides）： Tensor 每一维所需要的字节数，是一个tuple。

def show_tensor_attr(tensor:Tensor):

    # tensor 的 形状
    tensor_shape = tensor.shape

    # tensor 的 数据类型
    tensor_dtype = tensor.dtype

    # tensor 单个元素占用的字节数
    tensor_itemsize = tensor.itemsize

    # tensor 占用的字节数
    tensor_nbytes = tensor.nbytes

    # tensor 的秩，不同于矩阵的秩，这里指的是 len(tensor.shape)
    tensor_ndim = tensor.ndim

    # tensor 的 元素的数量
    tensor_size = tensor.size

    # tensor 每一维所需要的字节数
    tensor_strides = tensor.strides

    for name, value in locals().items():
        print(f"{name}: {value}")
    print()

三、张量索引

Tensor 索引与 Numpy 索引类似，索引从 0 开始编制，负索引表示按倒序编制，冒号 : 和 ... 用于对数据进行切片。

def show_tensor_index():
    tensor = Tensor(np.array([[0, 1], [2, 3]]).astype(np.float32))

    print("First row: {}".format(tensor[0]))
    print("value of bottom right corner: {}".format(tensor[1, 1]))
    print("Last column: {}".format(tensor[:, -1]))
    print("First column: {}".format(tensor[..., 0]))

在这里插入图片描述

四、张量运算

张量之间有很多运算，包括算术、线性代数、矩阵处理（转置、标引、切片）、采样等，张量运算和NumPy的使用方式类似，下面介绍其中几种操作。

4.1 普通算术

普通算术运算有：加（+）、减（-）、乘（*）、除（/）、取模（%）、整除（//）。

def base_calculate():
    x = Tensor(np.array([1, 2, 3]), mindspore.float32)
    y = Tensor(np.array([4, 5, 6]), mindspore.float32)

    # 加
    output_add = x + y
    # 减
    output_sub = x - y
    # 乘
    output_mul = x * y
    # 除
    output_div = y / x
    # 求余
    output_mod = y % x
    # 地板除 
    output_floordiv = y // x

    print("add:", output_add)
    print("sub:", output_sub)
    print("mul:", output_mul)
    print("div:", output_div)
    print("mod:", output_mod)
    print("floordiv:", output_floordiv)

在这里插入图片描述

4.2 张量拼接

4.2.1 concat 拼接

concat 将给定维度上的一系列张量连接起来。

def show_concat(axis=0):
    data1 = Tensor(np.array([[0, 1], [2, 3]]).astype(np.float32))
    data2 = Tensor(np.array([[4, 5], [6, 7]]).astype(np.float32))
    output = ops.concat((data1, data2), axis=axis)
    print(output)
    print(output.shape, output.dtype)

在这里插入图片描述

4.2.2 stack 拼接

stack 是从另一个维度上将两个张量合并起来。

def show_stack():
    data1 = Tensor(np.array([[0, 1], [2, 3]]).astype(np.float32))
    data2 = Tensor(np.array([[4, 5], [6, 7]]).astype(np.float32))
    output = ops.stack([data1, data2])

    print(output)
    print("shape:\n", output.shape)

在这里插入图片描述

五、Tensor与NumPy转换

Tensor 可以和 NumPy 进行互相转换。

5.1 Tensor转换为NumPy

与张量创建相同，使用 Tensor.asnumpy() 将 Tensor 变量转换为 NumPy 变量。

def tensor2numpy():
    t = Tensor([1., 1., 1., 1., 1.])
    print(f"t: {t}", type(t))
    n = t.asnumpy()
    print(f"n: {n}", type(n))

在这里插入图片描述

5.2 NumPy转换为Tensor

使用 Tensor() 将 NumPy 变量转换为 Tensor 变量。

def numpy2tensor():
    n = np.ones(5)
    t = Tensor.from_numpy(n)

    np.add(n, 1, out=n)
    print(f"n: {n}", type(n))
    print(f"t: {t}", type(t))

在这里插入图片描述
注意： numpy 的值改变，Tensor 的值也会同步改变

六、稀疏张量

稀疏张量是一种特殊张量，其中绝大部分元素的值为零。在某些应用场景中（比如推荐系统、分子动力学、图神经网络等），数据的特征是稀疏的，若使用普通张量表征这些数据会引入大量不必要的计算、存储和通讯开销。这时就可以使用稀疏张量来表征这些数据。

MindSpore现在已经支持最常用的 CSR 和 COO 两种稀疏数据格式。常用稀疏张量的表达形式是<indices:Tensor, values:Tensor, shape:Tensor>。其中，indices表示非零下标元素， values 表示非零元素的值，shape表示的是被压缩的稀疏张量的形状。在这个结构下，mindSpore 定义了两种稀疏张量结构：CSRTensor 和 COOTensor （其中 RowTensor 在 1.7 版本后已经弃用）。

6.1 CSRTensor

CSR（Compressed Sparse Row）稀疏张量格式有着高效的存储与计算的优势。其中，非零元素的值存储在values中，非零元素的位置存储在indptr（行）和indices（列）中。各参数含义如下：

indptr: 一维整数张量, 表示稀疏数据每一行的非零元素在values中的起始位置和终止位置, 索引数据类型支持int16、int32、int64。
indices: 一维整数张量，表示稀疏张量非零元素在列中的位置, 与values长度相等，索引数据类型支持int16、int32、int64。
values: 一维张量，表示CSRTensor相对应的非零元素的值，与indices长度相等。
shape: 表示被压缩的稀疏张量的形状，数据类型为Tuple，目前仅支持二维CSRTensor。

CSRTensor 的详细文档，请参考mindspore.CSRTensor。

def show_CSRTensor():

    indptr = Tensor([0, 2, 5, 6])
    indices = Tensor([0, 3, 1, 2, 4, 2])
    values = Tensor([1., 2., 3., 4., 5., 6.], dtype=mindspore.float32)
    shape = (3, 5)
    # Make a CSRTensor
    csr_tensor = CSRTensor(indptr, indices, values, shape)

    print(csr_tensor.to_dense())
    print(csr_tensor.astype(mindspore.float64).dtype)

在这里插入图片描述
其中 indptr 为 [0, 2, 5, 6]，表示 indices [0, 2)为第 0 行的数据，indices [2, 5) 为第 1 行的数据，indices [5, 6) 为第 2 行的数据。例如：稠密张量第 0 行非零元素所在的列位置由 indices 中的第 [0, 2) 个元素 ( 即[0, 3] ) 给出，实际值由 values 中的第 [0, 2) 个元素( 即 [1., 2.] ) 给出；第1行非零元素所在的列位置位置由 indices 中的第 [2, 5) 个元素( 即 [1, 2, 4] )给出，实际值由 values 中的第 [2, 5) 个元素 ( 即 [3., 4., 5.] ) 给出；第 2 行非零元素所在的列位置位置由 indices 中的第 [5, 6) 个元素( 即[2] )给出，实际值由 values 中的第 [5, 6) 个元素 ( 即[6.] ) 给出；

6.2 COOTensor

COO（Coordinate Format）稀疏张量格式用来表示某一张量在给定索引上非零元素的集合，若非零元素的个数为N，被压缩的张量的维数为ndims。各参数含义如下：

indices: 二维整数张量，每行代表非零元素下标。形状：[N, ndims]，索引数据类型支持int16、int32、int64。
values: 一维张量，表示相对应的非零元素的值。形状：[N]。
shape: 表示被压缩的稀疏张量的形状，目前仅支持二维COOTensor。

COOTensor的详细文档，请参考mindspore.COOTensor。

def show_COOTensor():
    indices = Tensor([[0, 1], [1, 2]], dtype=mindspore.int32)
    values = Tensor([1, 2], dtype=mindspore.float32)
    shape = (3, 4)

    # Make a COOTensor
    coo_tensor = COOTensor(indices, values, shape)
    print(coo_tensor.to_dense())
    print(coo_tensor.astype(mindspore.float64).dtype)