复杂稀缺数据集训练:TensorFlow数据处理全解析
1. 数据集创建
TensorFlow的 tf.data 模块提供了丰富的方法来创建数据集,可接受嵌套数组或张量结构。以下是几种常见的创建方式:
- 从张量创建 : from_tensors 和 from_tensor_slices 都可接受嵌套数组/张量结构,但后者会沿第一轴将数据切片成样本。
import numpy as np
import tensorflow as tf
x, y = np.array([1, 2, 3, 4]), np.array([5, 6, 7, 8])
d = tf.data.Dataset.from_tensors((x,y))
print(d.output_shapes) # > (TensorShape([4]), TensorShape([4]))
d_sliced = tf.data.Dataset.from_tensor_slices((x,y))
print(d_sliced.output_shapes) # > (TensorShape([]), TensorShape([]))
从输出可以看出, d_sliced 数据集最终包含四对样本,每对仅包含一个值。
- 从文件创建 :可以使用
.list_files()静态方法
超级会员免费看
订阅专栏 解锁全文
865

被折叠的 条评论
为什么被折叠?



