python函数——序列预处理pad_sequences()序列填充

本文详细介绍了Keras中pad_sequences函数的用法,包括参数解释、返回值说明及实际应用案例,帮助理解如何处理不同长度的序列数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


python函数 系列目录:python函数——目录


0. 前言

为了实现的简便,keras只能接受长度相同的序列输入。因此如果目前序列长度参差不齐,这时需要使用pad_sequences()。该函数是将序列转化为经过填充以后的一个长度相同的新序列新序列。

1. 语法

官方语法如下1
Code.1.1 pad_sequences语法

keras.preprocessing.sequence.pad_sequences(sequences, 
	maxlen=None,
	dtype='int32',
	padding='pre',
	truncating='pre', 
	value=0.)

1.1 参数说明

  • sequences:浮点数或整数构成的两层嵌套列表
  • maxlen:None或整数,为序列的最大长度。大于此长度的序列将被截短,小于此长度的序列将在后部填0.
  • dtype:返回的numpy array的数据类型
  • padding:‘pre’或‘post’,确定当需要补0时,在序列的起始还是结尾补`
  • truncating:‘pre’或‘post’,确定当需要截断序列时,从起始还是结尾截断
  • value:浮点数,此值将在填充时代替默认的填充值0

1.2 返回值

返回的是个2维张量,长度为maxlen

2. 实例

Code.2.1 简单示例

>>>list_1 = [[2,3,4]]
>>>keras.preprocessing.sequence.pad_sequences(list_1, maxlen=10)
array([[0, 0, 0, 0, 0, 0, 0, 2, 3, 4]], dtype=int32)

>>>list_2 = [[1,2,3,4,5]]
>>>keras.preprocessing.sequence.pad_sequences(list_2, maxlen=10)
array([[0, 0, 0, 0, 0, 1, 2, 3, 4, 5]], dtype=int32)

在自然语言中一般和分词器一起使用,在分词器笔记中也提到过pad_sequences使用效果,原文见
python函数——Keras分词器Tokenizer

Code.2.2 常用示例

>>>tokenizer.texts_to_sequences(["下 雨 我 加班"])
[[4, 5, 6, 7]]

>>>keras.preprocessing.sequence.pad_sequences(tokenizer.texts_to_sequences(["下 雨 我 加班"]), maxlen=20)
array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 4, 5, 6, 7]],dtype=int32)

  1. https://keras-cn.readthedocs.io/en/latest/preprocessing/sequence/ ↩︎

(一)新闻文本分类实验流程 4./4数据加载与预处理 数据读取:读取新闻数据集(如cnews.train.txt),按制表符分割标签与 内容; 构建词汇表:统计词频并生成词表,保留高频词(如前5000个),添加< PAD>标记用于序列填充; 数据向量化:将文本转换为ID序列,并通过pad_sequences统一序列长度 (如600)。 2.LSTM 模型构建与训练 模型架构:使用Embedding层将词ID转换为向量,通过LSTM层捕获序列 特征,搭配全连接层完成多分类; 训练配置:使用categorical_crossentropy损失函数,rmsprop优化器, 批量大小 64,训练20轮。 3.模型评估 可视化训练过程:绘制准确率与损失值曲线,观察模型收敛情况: 混淆矩阵与分类报告:使用测试集评估模型,输出各分类的精确率、召回 率和 F1 值。 (二)情感分析实验流程 1.数据预处理 加载语料:读取正负情感Excel文件(如pos.xls/neg.xls),标注标签(1 为正面,0为负面); 分词与向量化:使用jieba分词,构建词频词典并将文本转换为ID 序列序列标准化:使用pad_sequences填充或截断序列至固定长度(如 5 0)。 2.LSTM 模型构建与训练 二分类模型架构:嵌入层 +LSTM 层+全连接层,使用sigmoid激活函 数输出情感概率; 训练配置:使用binary_crossentropy损失函数,adam优化器,批量大小 16,训练 10 轮; 3.模型评估 准确率与分类报告:使用测试集计算二分类准确率、精确率、召回率。
05-30
import pandas as pd import numpy as np from sklearn.preprocessing import MinMaxScaler, OneHotEncoder import tensorflow from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.preprocessing.sequence import pad_sequences from tensorflow.keras.models import Model from tensorflow.keras.layers import Input, Dense, Embedding, LSTM, Concatenate, Dropout, BatchNormalization from tensorflow.keras.optimizers import Adam from sklearn.model_selection import train_test_split from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau # 1.数据预处理与特征工程 # 加载数据集 df = pd.read_csv("training_data.csv") # 数值特征标准化 num_features = ['position', 'quality'] scaler = MinMaxScaler() df[num_features] = scaler.fit_transform(df[num_features]) # 序列特征编码 tokenizer = Tokenizer(char_level=True, num_words=4) # 仅A,C,G,T四种碱基 tokenizer.fit_on_texts(df['context']) sequences = tokenizer.texts_to_sequences(df['context']) max_length = max(len(seq) for seq in sequences) padded_sequences = pad_sequences(sequences, maxlen=max_length, padding='post') # 标签提取 labels = df['label'].values # 2.双输入混合模型架构 # 序列输入分支 sequence_input = Input(shape=(max_length,), name='sequence_input') embedding = Embedding(input_dim=5, output_dim=8, input_length=max_length)(sequence_input) # 5=4碱基+填充 lstm_out = LSTM(32, return_sequences=False)(embedding) # 数值特征输入分支 numeric_input = Input(shape=(len(num_features),), name='numeric_input') dense_numeric = Dense(16, activation='relu')(numeric_input) bn_numeric = BatchNormalization()(dense_numeric) # 合并分支 concatenated = Concatenate()([lstm_out, bn_numeric]) dense1 = Dense(64, activation='relu')(concatenated) dropout1 = Dropout(0.3)(dense1) dense2 = Dense(32, activation='relu')(dropout1) output = Dense(1, activation='sigmoid')(dense2) # 构建模型 model = Model(inputs=[sequence_input, numeric_input], outputs=output) model.compile( optimizer=Adam(learning_rate=0.001), loss='binary_crossentropy', metrics=['accuracy', 'AUC'] ) model.summary() # 3.模型训练与评估 # 划分训练集和测试集 X_seq_train, X_seq_test, X_num_train, X_num_test, y_train, y_test = train_test_split( padded_sequences, df[num_features].values, labels, test_size=0.2, stratify=labels ) # 回调函数 callbacks = [ EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True), ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=5, min_lr=1e-6) ] # 训练模型 history = model.fit( [X_seq_train, X_num_train], y_train, validation_data=([X_seq_test, X_num_test], y_test), epochs=100, batch_size=64, callbacks=callbacks, class_weight={0: 1, 1: 2} # 处理类别不平衡 ) # 评估模型 test_loss, test_acc, test_auc = model.evaluate( [X_seq_test, X_num_test], y_test ) print(f"测试准确率: {test_acc:.4f}, AUC: {test_auc:.4f}") 请优化该代码 tensorflow.keras.preprocessing.text tensorflow.keras.preprocessing.sequence tensorflow.keras.models tensorflow.keras.layers tensorflow.keras.optimizers tensorflow.keras.callbacks 无法导入
最新发布
07-19
``` from transformers import BertTokenizer, TFBertForSequenceClassification from tensorflow.keras.optimizers import Adam from tensorflow.keras.losses import SparseCategoricalCrossentropy # 加载BERT预训练模型和分词器 tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') model = TFBertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2) # 编译模型 model.compile(optimizer=Adam(learning_rate=3e-5), loss=SparseCategoricalCrossentropy(from_logits=True), metrics=['accuracy']) # 加载IMDB数据集 (x_train, y_train), (x_test, y_test) = tf.keras.datasets.imdb.load_data(num_words=10000) # 数据预处理 maxlen = 100 x_train = pad_sequences(x_train, maxlen=maxlen) x_test = pad_sequences(x_test, maxlen=maxlen) # 将数据转换为BERT输入格式 def encode_data(texts, labels): input_ids = [] attention_masks = [] for text in texts: encoded = tokenizer.encode_plus( text, add_special_tokens=True, max_length=maxlen, pad_to_max_length=True, return_attention_mask=True, return_tensors='tf' ) input_ids.append(encoded['input_ids']) attention_masks.append(encoded['attention_mask']) return { 'input_ids': tf.concat(input_ids, axis=0), 'attention_mask': tf.concat(attention_masks, axis=0) }, tf.convert_to_tensor(labels) train_data, train_labels = encode_data(x_train, y_train) test_data, test_labels = encode_data(x_test, y_test) # 训练模型 model.fit(train_data, train_labels, epochs=3, batch_size=32, validation_data=(test_data, test_labels)) # 评估模型 test_loss, test_acc = model.evaluate(test_data, test_labels) print(f'迁移学习模型在IMDB测试集上的准确率: {test_acc}')```解释代码
03-19
``` import torch import numpy as np from torch import nn, optim from torch.nn.utils.rnn import pad_sequence # 如果没有安装Jellyfish库,可以用其他方法处理序列 # 定义词典:单词到索引映射,假设有5个不同的单词 word_to_idx = { 'cat': 0, 'dog': 1, 'apple': 2, 'banana': 3, 'orange': 4 } # 加载训练数据和测试数据,这里简单模拟,假设序列长度为5 training_data = [ ['cat', 'dog', 'apple'], ['banana', 'orange'], ['cat', 'dog', 'apple', 'banana'] ] test_data = [ ['apple', 'banana', 'orange'], ['dog', 'cat'] ] # 定义模型参数 batch_size = 2 seq_len = 5 hidden_size = 128 embedding_size = 100 class SimpleLSTM(nn.Module): def __init__(self, vocab_size, hidden_size, embedding_size): super().__init__() self.embedding = nn.Embedding(vocab_size, embedding_size) self.lstm = nn.LSTM(hidden_size, hidden_size, num_layers=1) self.fc = nn.Linear(hidden_size, hidden_size) def forward(self, x): # 假设x是 tensor形式,形状为 (batch_size, seq_len) x_embed = self.embedding(x) # 形状为 (batch_size, seq_len, embedding_size) lstm_out, (hn, cn) = self.lstm(x_embed) output = self.fc(hn.mean(dim=1)) # 取最后一个时间步的输出 return output # 初始化模型 model = SimpleLSTM(len(word_to_idx), hidden_size, embedding_size) # 定义优化器 optimizer = optim.Adam(model.parameters(), lr=0.001) # 定义损失函数(交叉熵损失) criterion = nn.CrossEntropyLoss() # 训练循环 num_epochs = 10 for epoch in range(num_epochs): # 将数据转换为 tensors 并进行处理 train_sequences = [torch.tensor(s, dtype=torch.long) for s in training_data] train_labels = torch.tensor([0]*len(training_data), dtype=torch.long) sequences = pad_sequence(train_sequences, padding_value=9999) labels = torch.zeros(len(sequences)//seq_len * batch_size) # 前向传播 outputs = model(sequences[:, :seq_len]) loss = criterion(outputs, labels) # 反向传播和优化 optimizer.zero_grad() loss.backward() optimizer.step() print(f'Epoch {epoch+1}, Loss: {loss.item():.4f}') # 测试模型 test_sequences = [torch.tensor(s, dtype=torch.long) for s in test_data] test_labels = torch.tensor([0]*len(test_data), dtype=torch.long) test_sequences_padded = pad_sequence(test_sequences, padding_value=9999) with torch.no_grad(): outputs = model(test_sequences_padded[:, :seq_len]) _, predicted = torch.max(outputs.data, 1) print("Test Accuracy:", np.mean(predicted == test_labels))```请直接给我修正后的完整代码
03-08
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值