Keras中的掩码与填充机制详解：处理变长序列数据的核心技术-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00550/article/details/148323870

Keras中的掩码与填充机制详解：处理变长序列数据的核心技术

keras 项目地址: https://gitcode.com/gh_mirrors/ker/keras

引言

在深度学习领域，处理序列数据是一项常见但具有挑战性的任务。不同于图像数据通常具有固定的尺寸，序列数据（如文本、时间序列等）往往具有可变长度。Keras框架提供了强大的掩码(Masking)和填充(Padding)机制来优雅地处理这类变长序列数据。本文将深入解析这些机制的工作原理和实际应用。

填充(Padding)：统一序列长度的基础技术

为什么需要填充

考虑以下文本序列示例（已分词）：

[
  ["Hello", "world", "!"],
  ["How", "are", "you", "doing", "today"],
  ["The", "weather", "will", "be", "nice", "tomorrow"],
]

转换为整数表示后：

[
  [71, 1331, 4231],
  [73, 8, 3215, 55, 927],
  [83, 91, 1, 645, 1253, 927],
]

这些序列长度分别为3、5和6。深度学习模型要求输入数据必须是统一形状的张量，因此需要将较短序列填充至最长序列的长度。

Keras中的填充实现

Keras提供了keras.utils.pad_sequences工具函数来处理填充：

raw_inputs = [
    [711, 632, 71],
    [73, 8, 3215, 55, 927],
    [83, 91, 1, 645, 1253, 927],
]

padded_inputs = keras.utils.pad_sequences(raw_inputs, padding="post")

填充方式有两种：

"pre"：在序列开始处填充
"post"：在序列末尾填充（推荐用于RNN层）

掩码(Masking)：识别并忽略填充值的关键机制

掩码的作用

填充虽然统一了序列长度，但模型需要知道哪些是真实的输入值，哪些是填充的占位符。这就是掩码的作用——标识哪些时间步应该被忽略。

三种引入掩码的方式

添加Masking层
配置Embedding层，设置mask_zero=True
手动向支持掩码的层（如RNN）传递mask参数

掩码生成层的工作原理

Embedding和Masking层会在内部创建一个形状为(batch_size, sequence_length)的布尔掩码张量，并附加到输出张量上。

embedding = layers.Embedding(input_dim=5000, output_dim=16, mask_zero=True)
masked_output = embedding(padded_inputs)
print(masked_output._keras_mask)  # 查看生成的掩码

掩码中False表示对应时间步应被忽略。

掩码传播机制

函数式API和顺序式API中的自动传播

当使用函数式API或顺序式API时，Embedding或Masking层生成的掩码会自动在网络中传播，任何能够使用掩码的层（如RNN层）都会自动接收并处理掩码。

# 顺序模型示例
model = keras.Sequential([
    layers.Embedding(input_dim=5000, output_dim=16, mask_zero=True),
    layers.LSTM(32),  # 自动接收掩码
])

# 函数式API示例
inputs = keras.Input(shape=(None,), dtype="int32")
x = layers.Embedding(input_dim=5000, output_dim=16, mask_zero=True)(inputs)
outputs = layers.LSTM(32)(x)
model = keras.Model(inputs, outputs)

手动传递掩码

对于需要直接控制掩码的场景，可以手动获取并传递掩码：

class MyLayer(layers.Layer):
    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        self.embedding = layers.Embedding(input_dim=5000, output_dim=16, mask_zero=True)
        self.lstm = layers.LSTM(32)

    def call(self, inputs):
        x = self.embedding(inputs)
        mask = self.embedding.compute_mask(inputs)
        return self.lstm(x, mask=mask)

自定义层中的掩码处理

修改掩码的层

某些层（如沿时间维度连接的Concatenate层）需要修改当前掩码。这类层应实现compute_mask()方法。

class TemporalSplit(keras.layers.Layer):
    """沿时间维度分割输入张量"""
    
    def call(self, inputs):
        return ops.split(inputs, 2, axis=1)
    
    def compute_mask(self, inputs, mask=None):
        if mask is None:
            return None
        return ops.split(mask, 2, axis=1)

生成掩码的层

自定义层也可以生成掩码：

class CustomEmbedding(keras.layers.Layer):
    def __init__(self, input_dim, output_dim, mask_zero=False, **kwargs):
        super().__init__(**kwargs)
        self.mask_zero = mask_zero
    
    def compute_mask(self, inputs, mask=None):
        if not self.mask_zero:
            return None
        return ops.not_equal(inputs, 0)  # 非零值为True

支持掩码传播的层

对于不修改时间维度的层，可以设置supports_masking = True来支持掩码传播：

class MyActivation(layers.Layer):
    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        self.supports_masking = True  # 声明支持掩码传播
    
    def call(self, inputs):
        return ops.relu(inputs)

使用掩码信息的层

某些层需要消费掩码信息，可以在call方法中添加mask参数：

class TemporalSoftmax(layers.Layer):
    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        self.supports_masking = True
    
    def call(self, inputs, mask=None):
        broadcast_float_mask = ops.expand_dims(ops.cast(mask, "float32"), -1)
        inputs_exp = ops.exp(inputs) * broadcast_float_mask
        inputs_sum = ops.sum(inputs_exp * broadcast_float_mask, axis=-1, keepdims=True)
        return inputs_exp / inputs_sum  # 只对非掩码位置计算softmax