76、TensorFlow 特殊数据结构与图的深入解析

最新推荐文章于 2025-11-18 15:56:47 发布

原创最新推荐文章于 2025-11-18 15:56:47 发布 · 60 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#TensorFlow #字符串张量 #不规则张量

动手学AI：从零到精通专栏收录该内容

77 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

TensorFlow 特殊数据结构与图的深入解析

1. 特殊数据结构

1.1 字符串

TensorFlow 中的张量可以存储字节字符串，这在自然语言处理中非常有用。示例代码如下：

import tensorflow as tf

# 创建字节字符串张量
print(tf.constant(b"hello world"))
# 输出: <tf.Tensor: shape=(), dtype=string, numpy=b'hello world'>

# 自动将 Unicode 字符串编码为 UTF - 8
print(tf.constant("café"))
# 输出: <tf.Tensor: shape=(), dtype=string, numpy=b'caf\xc3\xa9'>

# 创建表示 Unicode 字符串的张量
u = tf.constant([ord(c) for c in "café"])
print(u)
# 输出: <tf.Tensor: shape=(4,), [...], numpy=array([ 99,  97, 102, 233], dtype=int32)>

在 tf.string 类型的张量中，字符串长度不是张量形状的一部分；而在 Unicode 字符串张量（即 int32 张量）中，字符串长度是张量形状的一部分。

tf.strings 包提供了一些操作字符串张量的函数，例如：

# 将 Unicode 字符串张量编码为字节字符串张量
b = tf.strings.unicode_encode(u, "UTF-8")
print(b)
# 输出: <tf.Tensor: shape=(), dtype=string, numpy=b'caf\xc3\xa9'>

# 计算字节字符串中的代码点数量
print(tf.strings.length(b, unit="UTF8_CHAR"))
# 输出: <tf.Tensor: shape=(), dtype=int32, numpy=4>

# 将字节字符串张量解码为 Unicode 字符串张量
print(tf.strings.unicode_decode(b, "UTF-8"))
# 输出: <tf.Tensor: shape=(4,), [...], numpy=array([ 99,  97, 102, 233], dtype=int32)>

# 处理包含多个字符串的张量
p = tf.constant(["Café", "Coffee", "caffè", "咖啡"])
print(tf.strings.length(p, unit="UTF8_CHAR"))
# 输出: <tf.Tensor: shape=(4,), dtype=int32, numpy=array([4, 6, 5, 2], dtype=int32)>
r = tf.strings.unicode_decode(p, "UTF8")
print(r)
# 输出: <tf.RaggedTensor [[67, 97, 102, 233], [67, 111, 102, 102, 101, 101], [99, 97, 102, 102, 232], [21654, 21857]]>

1.2 不规则张量（Ragged Tensors）

不规则张量是一种特殊的张量，用于表示不同大小数组的列表。它有一个或多个不规则维度，即切片长度可能不同的维度。在不规则张量中，第一个维度总是规则维度。

# 查看不规则张量的元素
print(r[1])
# 输出: <tf.Tensor: [...], numpy=array([ 67, 111, 102, 102, 101, 101], dtype=int32)>

# 创建新的不规则张量并拼接
r2 = tf.ragged.constant([[65, 66], [], [67]])
print(tf.concat([r, r2], axis=0))
# 输出: <tf.RaggedTensor [[67, 97, 102, 233], [67, 111, 102, 102, 101, 101], [99, 97, 102, 102, 232], [21654, 21857], [65, 66], [], [67]]>

r3 = tf.ragged.constant([[68, 69, 70], [71], [], [72, 73]])
print(tf.concat([r, r3], axis=1))
# 输出: <tf.RaggedTensor [[67, 97, 102, 233, 68, 69, 70], [67, 111, 102, 102, 101, 101, 71], [99, 97, 102, 102, 232], [21654, 21857, 72, 73]]>

# 将不规则张量转换为规则张量
print(r.to_tensor())
# 输出: 
# <tf.Tensor: shape=(4, 6), dtype=int32, numpy=
# array([[   67,    97,   102,   233,     0,     0],
#        [   67,   111,   102,   102,   101,   101],
#        [   99,    97,   102,   102,   232,     0],
#        [21654, 21857,     0,     0,     0,     0]], dtype=int32)>

1.3 稀疏张量（Sparse Tensors）

TensorFlow 可以高效地表示稀疏张量（即大部分元素为零的张量）。创建稀疏张量时，需要指定非零元素的索引、值和张量的形状。

# 创建稀疏张量
s = tf.SparseTensor(indices=[[0, 1], [1, 0], [2, 3]],
                    values=[1., 2., 3.],
                    dense_shape=[3, 4])
# 将稀疏张量转换为密集张量
print(tf.sparse.to_dense(s))
# 输出: 
# <tf.Tensor: shape=(3, 4), dtype=float32, numpy=
# array([[0., 1., 0., 0.],
#        [2., 0., 0., 0.],
#        [0., 0., 0., 3.]], dtype=float32)>

# 稀疏张量的操作限制
print(s * 42.0)
# 输出: <tensorflow.python.framework.sparse_tensor.SparseTensor at 0x7f84a6749f10>
try:
    print(s + 42.0)
except TypeError as e:
    print(e)
# 输出: unsupported operand type(s) for +: 'SparseTensor' and 'float'

1.4 张量数组（Tensor Arrays）

tf.TensorArray 表示张量列表，在包含循环的动态模型中很有用。

# 创建张量数组
array = tf.TensorArray(dtype=tf.float32, size=3)
array = array.write(0, tf.constant([1., 2.]))
array = array.write(1, tf.constant([3., 10.]))
array = array.write(2, tf.constant([5., 7.]))

# 读取张量数组中的元素
tensor1 = array.read(1)
print(tensor1)
# 输出: tf.constant([3., 10.])

# 将张量数组中的元素堆叠成规则张量
print(array.stack())
# 输出: 
# <tf.Tensor: shape=(3, 2), dtype=float32, numpy=
# array([[1., 2.],
#        [0., 0.],
#        [5., 7.]], dtype=float32)>

1.5 集合（Sets）

TensorFlow 支持整数或字符串集合（不支持浮点数集合），使用规则张量表示集合。

# 计算两个集合的并集
a = tf.constant([[1, 5, 9]])
b = tf.constant([[5, 6, 9, 11]])
u = tf.sets.union(a, b)
print(tf.sparse.to_dense(u))
# 输出: <tf.Tensor: [...], numpy=array([[ 1,  5,  6,  9, 11]], dtype=int32)>

# 计算多个集合对的并集
a = tf.constant([[1, 5, 9], [10, 0, 0]])
b = tf.constant([[5, 6, 9, 11], [13, 0, 0, 0]])
u = tf.sets.union(a, b)
print(tf.sparse.to_dense(u))
# 输出: 
# <tf.Tensor: [...] numpy=array([[ 1,  5,  6,  9, 11],
#                                [ 0, 10, 13,  0,  0]], dtype=int32)>

tf.sets 包还提供了 difference() 、 intersection() 和 size() 等函数。

1.6 队列（Queues）

TensorFlow 在 tf.queue 包中实现了几种类型的队列。虽然 tf.data API 使队列的使用变得不那么必要，但为了完整性，这里还是简单介绍一下。

1.6.1 先进先出（FIFO）队列

# 创建 FIFO 队列
q = tf.queue.FIFOQueue(3, [tf.int32, tf.string], shapes=[(), ()])
q.enqueue([10, b"windy"])
q.enqueue([15, b"sunny"])
print(q.size())
# 输出: <tf.Tensor: shape=(), dtype=int32, numpy=2>
print(q.dequeue())
# 输出: [<tf.Tensor: shape=(), dtype=int32, numpy=10>, <tf.Tensor: shape=(), dtype=string, numpy=b'windy'>]

# 批量入队和出队
q.enqueue_many([[13, 16], [b'cloudy', b'rainy']])
print(q.dequeue_many(3))
# 输出: 
# [<tf.Tensor: [...], numpy=array([15, 13, 16], dtype=int32)>,
#  <tf.Tensor: [...], numpy=array([b'sunny', b'cloudy', b'rainy'], dtype=object)>]

1.6.2 其他队列类型

PaddingFIFOQueue ：与 FIFOQueue 类似，但 dequeue_many() 方法支持出队不同形状的多个记录，会自动填充最短记录以确保批次中所有记录具有相同的形状。
PriorityQueue ：按优先级出队记录，优先级必须是 64 位整数，作为每个记录的第一个元素。优先级较低的记录先出队，相同优先级的记录按 FIFO 顺序出队。
RandomShuffleQueue ：记录以随机顺序出队，在 tf.data 出现之前，用于实现洗牌缓冲区。

下面是这些特殊数据结构的总结表格：
| 数据结构 | 特点 | 适用场景 |
| ---- | ---- | ---- |
| 字符串张量 | 可存储字节字符串和 Unicode 字符串，有相关操作函数 | 自然语言处理 |
| 不规则张量 | 表示不同大小数组的列表，有不规则维度 | 处理长度不同的数据序列 |
| 稀疏张量 | 高效表示大部分元素为零的张量 | 处理大规模稀疏数据 |
| 张量数组 | 表示张量列表，适用于动态模型中的循环 | 动态模型中结果的累积 |
| 集合 | 支持整数或字符串集合，有集合操作函数 | 集合运算 |
| 队列 | 有多种类型，用于数据的入队和出队 | 数据加载和预处理 |

2. TensorFlow 图

2.1 TF 函数和具体函数

TF 函数是多态的，支持不同类型（和形状）的输入。每次使用新的输入类型或形状组合调用 TF 函数时，都会生成一个新的具体函数，该函数有自己专门针对此组合的图。

@tf.function
def tf_cube(x):
    return x ** 3

# 获取具体函数
concrete_function = tf_cube.get_concrete_function(tf.constant(2.0))
print(concrete_function)
# 输出: <ConcreteFunction tf_cube(x) at 0x7F84411F4250>
print(concrete_function(tf.constant(2.0)))
# 输出: <tf.Tensor: shape=(), dtype=float32, numpy=8.0>

这些图中的张量是符号张量，它们没有实际值，只有数据类型、形状和名称。符号张量使得可以提前指定操作的连接方式，并允许 TensorFlow 根据输入的类型和形状递归推断所有张量的类型和形状。

2.2 探索函数定义和图

可以通过具体函数的 graph 属性访问其计算图，并使用 get_operations() 方法获取操作列表。

# 访问具体函数的计算图
print(concrete_function.graph)
# 输出: <tensorflow.python.framework.func_graph.FuncGraph at 0x7f84411f4790>

# 获取图的操作列表
ops = concrete_function.graph.get_operations()
print(ops)
# 输出: 
# [<tf.Operation 'x' type=Placeholder>,
#  <tf.Operation 'pow/y' type=Const>,
#  <tf.Operation 'pow' type=Pow>,
#  <tf.Operation 'Identity' type=Identity>]

# 获取操作的输入和输出张量
pow_op = ops[2]
print(list(pow_op.inputs))
# 输出: [<tf.Tensor 'x:0' shape=() dtype=float32>, <tf.Tensor 'pow/y:0' shape=() dtype=float32>]
print(pow_op.outputs)
# 输出: [<tf.Tensor 'pow:0' shape=() dtype=float32>]

每个操作都有一个名称，默认是操作的名称，也可以手动定义。每个张量也有一个唯一的名称。可以使用 get_operation_by_name() 和 get_tensor_by_name() 方法按名称获取操作或张量。

2.3 深入了解跟踪

@tf.function
def tf_cube(x):
    print(f"x = {x}")
    return x ** 3

# 调用函数
result = tf_cube(tf.constant(2.0))
# 输出: x = Tensor("x:0", shape=(), dtype=float32)
print(result)
# 输出: <tf.Tensor: shape=(), dtype=float32, numpy=8.0>

由于 print() 函数不是 TensorFlow 操作，它只在函数被跟踪时运行，即在图模式下，参数被符号张量替换。如果函数有 Python 副作用，这些代码只会在函数被跟踪时运行。

下面是 TF 函数调用生成具体函数的流程图：

graph TD;
    A[调用 TF 函数] --> B{输入签名是否已存在};
    B -- 是 --> C[重用已有具体函数];
    B -- 否 --> D[生成新的具体函数];
    D --> E[创建专门的图];
    C --> F[执行具体函数];
    E --> F;

综上所述，TensorFlow 提供了丰富的特殊数据结构和图机制，这些功能可以帮助我们更高效地处理各种类型的数据和构建复杂的模型。通过合理使用这些数据结构和图，我们可以更好地实现自然语言处理、深度学习等领域的应用。

2.4 具体函数和图的进一步应用示例

为了更深入地理解具体函数和图的应用，我们可以通过一个稍微复杂一点的示例来说明。假设我们要实现一个简单的线性回归模型，使用 TF 函数和具体函数来加速计算。

import tensorflow as tf

# 定义一个 TF 函数来实现线性回归
@tf.function
def linear_regression(x, w, b):
    return tf.matmul(x, w) + b

# 生成一些示例数据
x = tf.constant([[1.0, 2.0], [3.0, 4.0]])
w = tf.constant([[0.5], [0.5]])
b = tf.constant([1.0])

# 获取具体函数
concrete_regression = linear_regression.get_concrete_function(x, w, b)

# 执行具体函数
result = concrete_regression(x, w, b)
print(result)
# 输出: <tf.Tensor: shape=(2, 1), dtype=float32, numpy=array([[3.0], [5.0]], dtype=float32)>

在这个示例中，我们定义了一个 linear_regression TF 函数，用于计算线性回归的结果。通过 get_concrete_function 方法，我们获取了一个专门针对当前输入的具体函数 concrete_regression 。这样，在后续多次使用相同输入类型和形状的情况下，就可以直接调用这个具体函数，避免了重复的图生成过程，提高了计算效率。

2.5 利用图进行性能优化

TensorFlow 图的一个重要优势是可以进行性能优化。通过将计算逻辑转换为图，TensorFlow 可以对图进行一系列的优化操作，例如节点融合、内存布局优化等。

2.5.1 节点融合

节点融合是指将多个操作合并为一个操作，减少计算过程中的中间结果，从而提高计算效率。例如，在一个复杂的神经网络中，可能会有多个连续的矩阵乘法和加法操作，TensorFlow 可以将这些操作融合成一个更高效的操作。

2.5.2 内存布局优化

TensorFlow 可以根据硬件的特点，优化张量在内存中的布局，减少内存访问时间。例如，在 GPU 上，合理的内存布局可以充分利用 GPU 的并行计算能力。

下面是一个简单的示例，展示如何通过 TF 函数和图来实现性能优化：

import time

# 定义一个简单的计算函数
@tf.function
def complex_computation(x):
    y = tf.square(x)
    z = tf.reduce_sum(y)
    return z

# 生成一个大的输入张量
x = tf.random.normal([1000, 1000])

# 第一次调用，会进行图的生成和跟踪
start_time = time.time()
result = complex_computation(x)
first_call_time = time.time() - start_time
print(f"第一次调用时间: {first_call_time} 秒")

# 后续调用，直接使用生成的图
start_time = time.time()
result = complex_computation(x)
subsequent_call_time = time.time() - start_time
print(f"后续调用时间: {subsequent_call_time} 秒")

从这个示例中可以看出，第一次调用 complex_computation 函数时，由于需要进行图的生成和跟踪，花费的时间相对较长。而后续调用时，直接使用已经生成的图，时间明显缩短，体现了图在性能优化方面的优势。

2.6 图的序列化和部署

在实际应用中，我们可能需要将训练好的模型保存下来，并部署到不同的环境中。TensorFlow 图可以方便地进行序列化和部署。

2.6.1 图的序列化

可以使用 TensorFlow 的 SavedModel 格式将图和相关的变量保存到磁盘上。

# 保存具体函数为 SavedModel
tf.saved_model.save(concrete_regression, 'linear_regression_model')

2.6.2 图的部署

在需要使用模型的地方，可以加载保存的 SavedModel 并进行推理。

# 加载 SavedModel
loaded_model = tf.saved_model.load('linear_regression_model')

# 进行推理
new_x = tf.constant([[5.0, 6.0]])
new_result = loaded_model(new_x, w, b)
print(new_result)

通过这种方式，我们可以将训练好的模型方便地部署到不同的设备或环境中，实现模型的复用。

2.7 特殊数据结构和图的综合应用

在实际的深度学习项目中，往往需要综合使用特殊数据结构和图来处理复杂的数据和模型。例如，在处理自然语言数据时，可能会用到字符串张量和不规则张量，同时使用 TF 函数和图来加速计算。

下面是一个简单的示例，展示如何综合应用这些技术来处理文本数据。

import tensorflow as tf

# 定义一个处理文本数据的 TF 函数
@tf.function
def process_text(texts):
    # 对文本进行编码
    encoded_texts = tf.strings.unicode_decode(texts, "UTF-8")
    # 这里可以添加更多的处理逻辑，例如词嵌入等
    return encoded_texts

# 示例文本数据
texts = tf.constant(["Hello", "World", "你好"])

# 获取具体函数
concrete_process = process_text.get_concrete_function(texts)

# 执行具体函数
result = concrete_process(texts)
print(result)

在这个示例中，我们定义了一个 TF 函数 process_text 来处理文本数据。使用 unicode_decode 函数对文本进行编码，这涉及到字符串张量的操作。通过获取具体函数，我们可以利用图的优势来加速处理过程。

2.8 总结与展望

2.8.1 特殊数据结构总结

TensorFlow 提供的特殊数据结构，如字符串张量、不规则张量、稀疏张量、张量数组、集合和队列，各自具有独特的特点和适用场景。它们可以帮助我们更高效地处理各种类型的数据，特别是在处理复杂和大规模数据时，这些数据结构的优势更加明显。

数据结构	特点	适用场景
字符串张量	可存储字节字符串和 Unicode 字符串，有相关操作函数	自然语言处理
不规则张量	表示不同大小数组的列表，有不规则维度	处理长度不同的数据序列
稀疏张量	高效表示大部分元素为零的张量	处理大规模稀疏数据
张量数组	表示张量列表，适用于动态模型中的循环	动态模型中结果的累积
集合	支持整数或字符串集合，有集合操作函数	集合运算
队列	有多种类型，用于数据的入队和出队	数据加载和预处理