tf.keras.preprocessing.sequence.pad_sequences 截断填充序列

博客介绍了tf.keras.preprocessing.sequence.pad_sequences截断填充序列的功能,可将多个数组序列统一到同一长度,默认前面截断或填充。还给出后面填充、统一长度为9,分别进行前面截断和后面截断的示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

tf.keras.preprocessing.sequence.pad_sequences 截断填充序列

import tensorflow as tf
import numpy as np

pad_sequences(sequences, maxlen=None, dtype='int32', padding='pre', truncating='pre', value=0.0) pads sequences to the same length. 截断填充,多个数组序列统一到同一长度,默认是前面截断或填充。

array_1 = list(np.random.randint(100, size=10))
array_2 = list(np.random.randint(100, size=8))
array_3 = list(np.random.randint(100, size=15))
seq = [array_1, array_2, array_3]
print('\n'.join(map(str, seq)))
[45, 42, 11, 24, 54, 78, 24, 71, 45, 71]
[60, 65, 17, 72, 46, 51, 88, 24]
[53, 56, 7, 47, 67, 14, 2, 28, 89, 5, 58, 43, 59, 26, 25]

下面的例子,后面填充,统一长度为9,默认前面截断。可以看到,第1、3个序列超过9个元素,前面部分被截断,第2个序列不足9个,后面填充0。

tf.keras.preprocessing.sequence.pad_sequences(seq, maxlen=9, padding='post', value=0)
array([[42, 11, 24, 54, 78, 24, 71, 45, 71],
       [60, 65, 17, 72, 46, 51, 88, 24,  0],
       [ 2, 28, 89,  5, 58, 43, 59, 26, 25]], dtype=int32)

下面的例子,后面填充,后面截断,统一长度为9。可以看到,第1、3个序列超过9个元素,后面部分被截断,第2个序列不足9个,后面填充0。

tf.keras.preprocessing.sequence.pad_sequences(seq, maxlen=9, padding='post', truncating='post', value=0)
array([[45, 42, 11, 24, 54, 78, 24, 71, 45],
       [60, 65, 17, 72, 46, 51, 88, 24,  0],
       [53, 56,  7, 47, 67, 14,  2, 28, 89]], dtype=int32)
### 使用 `tf.keras.preprocessing.sequence.pad_sequences` 的方法 为了确保序列数据具有相同的长度以便于批量处理,在深度学习模型训练前通常会使用填充操作。对于 TensorFlow Keras 中的 `pad_sequences` 函数,其主要作用是对不等长的输入序列进行填充截断,使得它们达到指定的最大长度。 此函数接受多个参数来控制如何执行填充: - **sequences**: 输入的数据列表,其中每个元素都是一个整数列表。 - **maxlen (可选)**: 所有输出序列的目标长度。如果给定,则较长的序列会被裁剪;较短的则被填充至该长度。 - **dtype (默认 'int32')**: 输出数组的数据类型。 - **padding ('pre' 或 'post')**: 当需要填充时,是在序列前面还是后面添加填充值。 - **truncating ('pre' 或 'post')**: 如果序列超过最大长度,是从哪里开始删除多余的项。 - **value (默认 0.0)**: 填充所使用的具体数值[^3]。 下面是一个具体的例子展示如何应用这些设置: ```python from tensorflow.keras.preprocessing.sequence import pad_sequences texts = ['The cat sat on the mat.', 'The dog slept in the basket.'] tokenizer = keras.preprocessing.text.Tokenizer(num_words=1000) tokenizer.fit_on_texts(texts) # 将文本转换成索引序列 sequences = tokenizer.texts_to_sequences(texts) # 对序列进行填充/截取到固定长度 padded_sequences = pad_sequences( sequences, maxlen=10, # 设置目标长度为10 dtype='int32', # 数据类型设为'int32' padding='post', # 在序列末端填充 truncating='post'# 超过部分从后端移除 ) print(padded_sequences) ``` 需要注意的是,在某些较高版本的 Keras/TensorFlow 中,可能需要通过导入特定包的方式来访问 `pad_sequences` 函数。例如,可以尝试如下方式引入所需功能[^4]: ```python import tensorflow as tf from tensorflow.keras.preprocessing.sequence import pad_sequences ``` 或者针对更高版本的情况: ```python from keras_preprocessing.sequence import pad_sequences ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值