使用ReLU作为隐藏层的激活函数和在最后一层使用线性激活函数的作用

最新推荐文章于 2025-07-12 12:15:41 发布

原创最新推荐文章于 2025-07-12 12:15:41 发布 · 2.4k 阅读

9 ·

CC 4.0 BY-SA版权

本文解释了在LSTM模型中使用ReLU激活函数于隐藏层以引入非线性，处理复杂模式，以及使用线性激活函数于输出层以保持连续预测的能力。代码示例展示了如何在模型中实现这些功能。

部署运行你感兴趣的模型镜像

LSTM模型中使用ReLU作为隐藏层的激活函数和在最后一层使用线性激活函数，这两种做法有着不同的目的和作用：

ReLU激活函数在隐藏层：
- 目的：ReLU(Rectified Linear Unit)激活函数的主要目的是引入非线性到神经网络中。在深度学习模型中，非线性是必要的，因为它帮助网络学习和表示复杂的数据模式。
- 工作原理：ReLU函数的公式是f(x) = max(0, x)。这意味着，如果输入是负数，则输出为0；如果输入是正数，则输出等于输入。这种设计有助于解决梯度消失问题，并且计算效率高。
- 在LSTM中的作用：在LSTM的隐藏层使用ReLU可以帮助模型更有效地捕获和学习数据中的长期依赖关系。
线性激活函数在最后一层：
- 目的：线性激活函数(或称为恒等激活函数)通常用于回归问题中的输出层。它的目的是提供一个不受限制的输出范围，这对于预测连续值(如价格、温度、概率等)非常重要。
- 工作原理：线性激活的公式是f(x) = x。这意味着输出直接等于输入，没有进行任何转换。线性激活允许模型输出任何范围的值，不对输出进行限制或压缩。
- 在LSTM中的作用：在LSTM模型的最后一层使用线性激活函数，使模型能够输出一系列连续值，这对于时间序列预测等问题尤为重要。

总结来说，ReLU在隐藏层用于引入非线性，帮助模型学习复杂的数据模式，而线性激活函数在输出层用于保持输出的连续性和不受限制，适用于预测连续的数值目标。

下面是代码

`
在您提供的LSTM模型代码中，要添加ReLU激活函数和线性激活函数，通常是在定义最终输出层之前和之后进行。ReLU激活函数可以应用于LSTM层的输出上，而线性激活函数可以作为最终输出层的一部分。下面是修改后的代码示例：

import torch.nn as nn

class LSTMModel(nn.Module):
    """single task model"""

    def __init__(self, cfg, lstmmodel_cfg):
        super(LSTMModel, self).__init__()
        self.lstm = nn.LSTM(lstmmodel_cfg["input_size"], lstmmodel_cfg["hidden_size"], batch_first=True)
        self.drop = nn.Dropout(p=cfg["dropout_rate"])
        # Adding a fully connected layer with ReLU activation
        self.fc = nn.Linear(lstmmodel_cfg["hidden_size"], lstmmodel_cfg["hidden_size"])
        self.relu = nn.ReLU()
        # Final dense layer with linear activation
        self.dense = nn.Linear(lstmmodel_cfg["hidden_size"], lstmmodel_cfg["out_size"])

    def forward(self, inputs):
        inputs_new = inputs
        x, (hidden, cell) = self.lstm(inputs_new.float())
        x = self.drop(x)
        # we only predict the last step
        aa = x[:, -1, :]
        # Applying ReLU activation function
        aa = self.relu(self.fc(aa))
        # Final output with linear activation
        x = self.dense(aa)
        return x

在这个修改中，我添加了一个额外的全连接层self.fc，后面紧跟着ReLU激活函数self.relu。ReLU激活函数应用于LSTM层的输出。之后，使用self.dense作为最终的输出层，它具有线性激活功能。

请确保调整lstmmodel_cfg和cfg配置以匹配您的具体需求，特别是关于层的大小和dropout比率。您提到的输入格式(批处理大小为64，天数为7，特征数为10)是兼容的，这段代码应该能够适应该输入格式。`

您可能感兴趣的与本文相关的镜像