【AutoFormer 源码理解】DecoderLayer-优快云博客

本文链接：https://blog.youkuaiyun.com/2301_77549977/article/details/146343512

好的，让我们为DecoderLayer类的forward方法中的每行代码添加注释，说明代码的目的和形状的变化。

class DecoderLayer(nn.Module):
    """
    Autoformer decoder layer with the progressive decomposition architecture
    """
    def __init__(self, self_attention, cross_attention, d_model, c_out, d_ff=None,
                 moving_avg=25, dropout=0.1, activation="relu"):
        super(DecoderLayer, self).__init__()
        d_ff = d_ff or 4 * d_model
        self.self_attention = self_attention
        self.cross_attention = cross_attention
        self.conv1 = nn.Conv1d(in_channels=d_model, out_channels=d_ff, kernel_size=1, bias=False)
        self.conv2 = nn.Conv1d(in_channels=d_ff, out_channels=d_model, kernel_size=1, bias=False)
        self.decomp1 = series_decomp(moving_avg)
        self.decomp2 = series_decomp(moving_avg)
        self.decomp3 = series_decomp(moving_avg)
        self.dropout = nn.Dropout(dropout)
        self.projection = nn.Conv1d(in_channels=d_model, out_channels=c_out, kernel_size=3, stride=1, padding=1,
                                    padding_mode='circular', bias=False)
        self.activation = F.relu if activation == "relu" else F.gelu

    def forward(self, x, cross, x_mask=None, cross_mask=None):
        # 使用自注意力机制处理输入序列x，提取特征间的依赖关系
        # x[B, L, d_model] -> self_attention.forward -> new_x[B, L, d_model]
        x = x + self.dropout(self.self_attention(
            x, x, x,
            attn_mask=x_mask
        )[0])

        # 使用序列分解提取季节性部分，丢弃趋势部分(trend1)
        # x[B, L, d_model] -> series_decomp.forward -> seasonal_x[B, L, d_model], trend1[B, L, d_model]
        x, trend1 = self.decomp1(x)

        # 使用交叉注意力机制处理输入序列x和交叉序列cross，提取特征间的依赖关系
        # x[B, L, d_model], cross[B, L, d_model] -> cross_attention.forward -> new_x[B, L, d_model]
        x = x + self.dropout(self.cross_attention(
            x, cross, cross,
            attn_mask=cross_mask
        )[0])

        # 使用序列分解提取季节性部分，丢弃趋势部分(trend2)
        # x[B, L, d_model] -> series_decomp.forward -> seasonal_x[B, L, d_model], trend2[B, L, d_model]
        x, trend2 = self.decomp2(x)

        # 创建x的副本用于前馈网络处理分支
        # 复制x[B, L, d_model] -> y[B, L, d_model]
        y = x

        # 通过第一个卷积层扩展特征维度，应用激活函数和dropout
        # y[B, L, d_model] -> 转置[B, d_model, L] -> 卷积[B, d_ff, L] -> 激活 -> dropout -> y[B, d_ff, L]
        y = self.dropout(self.activation(self.conv1(y.transpose(-1, 1))))

        # 通过第二个卷积层映射回原始维度，应用dropout后转置回序列格式
        # y[B, d_ff, L] -> 卷积[B, d_model, L] -> dropout -> 转置 -> y[B, L, d_model]
        y = self.dropout(self.conv2(y).transpose(-1, 1))

        # 使用序列分解提取季节性部分，丢弃趋势部分(trend3)
        # (x + y)[B, L, d_model] -> series_decomp.forward -> seasonal_x[B, L, d_model], trend3[B, L, d_model]
        x, trend3 = self.decomp3(x + y)

        # 将三个趋势部分相加，得到残差趋势
        # trend1[B, L, d_model] + trend2[B, L, d_model] + trend3[B, L, d_model] -> residual_trend[B, L, d_model]
        residual_trend = trend1 + trend2 + trend3

        # 对残差趋势进行投影，调整维度
        # residual_trend[B, L, d_model] -> 转置[B, d_model, L] -> 卷积[B, c_out, L] -> 转置 -> residual_trend[B, L, c_out]
        residual_trend = self.projection(residual_trend.permute(0, 2, 1)).transpose(1, 2)

        # 返回处理后的特征表示和残差趋势
        # 返回值: x[B, L, d_model], residual_trend[B, L, c_out]
        return x, residual_trend

代码解析

使用自注意力机制处理输入序列x，提取特征间的依赖关系：
- 目的：通过自注意力机制提取输入序列中的特征依赖关系。
- 形状变化：x[B, L, d_model] -> self_attention.forward -> new_x[B, L, d_model]
使用序列分解提取季节性部分，丢弃趋势部分(trend1)：
- 目的：通过序列分解提取输入序列中的季节性部分，丢弃趋势部分。
- 形状变化：x[B, L, d_model] -> series_decomp.forward -> seasonal_x[B, L, d_model], trend1[B, L, d_model]
使用交叉注意力机制处理输入序列x和交叉序列cross，提取特征间的依赖关系：
- 目的：通过交叉注意力机制提取输入序列和交叉序列中的特征依赖关系。
- 形状变化：x[B, L, d_model], cross[B, L, d_model] -> cross_attention.forward -> new_x[B, L, d_model]
使用序列分解提取季节性部分，丢弃趋势部分(trend2)：
- 目的：通过序列分解提取输入序列中的季节性部分，丢弃趋势部分。
- 形状变化：x[B, L, d_model] -> series_decomp.forward -> seasonal_x[B, L, d_model], trend2[B, L, d_model]
创建x的副本用于前馈网络处理分支：
- 目的：创建输入序列的副本，用于后续的前馈网络处理。
- 形状变化：复制x[B, L, d_model] -> y[B, L, d_model]
通过第一个卷积层扩展特征维度，应用激活函数和dropout：
- 目的：通过卷积层扩展特征维度，并应用激活函数和dropout。
- 形状变化：y[B, L, d_model] -> 转置[B, d_model, L] -> 卷积[B, d_ff, L] -> 激活 -> dropout -> y[B, d_ff, L]
通过第二个卷积层映射回原始维度，应用dropout后转置回序列格式：
- 目的：通过卷积层将特征维度映射回原始维度，并应用dropout。
- 形状变化：y[B, d_ff, L] -> 卷积[B, d_model, L] -> dropout -> 转置 -> y[B, L, d_model]
使用序列分解提取季节性部分，丢弃趋势部分(trend3)：
- 目的：通过序列分解提取输入序列中的季节性部分，丢弃趋势部分。
- 形状变化：(x + y)[B, L, d_model] -> series_decomp.forward -> seasonal_x[B, L, d_model], trend3[B, L, d_model]
将三个趋势部分相加，得到残差趋势：
- 目的：将三个趋势部分相加，得到残差趋势。
- 形状变化：trend1[B, L, d_model] + trend2[B, L, d_model] + trend3[B, L, d_model] -> residual_trend[B, L, d_model]
对残差趋势进行投影，调整维度：
- 目的：对残差趋势进行投影，调整维度。
- 形状变化：residual_trend[B, L, d_model] -> 转置[B, d_model, L] -> 卷积[B, c_out, L] -> 转置 -> residual_trend[B, L, c_out]
返回处理后的特征表示和残差趋势：
- 目的：返回处理后的特征表示和残差趋势。
- 形状保持：返回值: x[B, L, d_model], residual_trend[B, L, c_out]