2--丢弃法(Dropout)

本文介绍了Dropout正则化技术的基本原理及其在神经网络训练中的应用。通过在训练过程中随机丢弃部分神经元,Dropout能有效防止过拟合现象,并提高模型泛化能力。文章还提供了使用PyTorch实现Dropout的示例代码。
部署运行你感兴趣的模型镜像

2.1 丢弃法

         在训练过程中,在计算后续层之前向网络的每一层注入噪声。 因为当训练一个有多层的深层网络时,注入噪声只会在输入-输出映射上增强平滑性,该思想称为丢弃法。

        丢弃法在前向传播过程中,计算每一内部层的同时注入噪声,这已经成为训练神经网络的常用技术。 这种方法之所以被称为丢弃法,因为从表面上看是在训练过程中丢弃(drop out)一些神经元。 在整个训练过程的每一次迭代中,标准丢弃法包括在计算下一层之前将当前层中的一些节点置零。

        在标准丢弃法正则化中,通过按保留(未丢弃)的节点的分数进行规范化来消除每一层的偏差。 换言之,每个中间活性值h以暂退概率p由随机变量h′替换,如下所示(并且其期望值保持不变,即E[h′]=h):

 注意:通常,在测试时不用暂退法。 给定一个训练好的模型和一个新的样本,我们不会丢弃任何节点,因此不需要标准化。

2.2 代码实现

!pip install git+https://github.com/d2l-ai/d2l-zh@release  # installing d2l
!pip install matplotlib==3.0.0

import torch
from torch import nn
from d2l import torch as d2l

def dropout_layer(X,dropout):
  assert 0 <= dropout <= 1
  if dropout == 1:
    return torch.zeros_like(X)
  if dropout == 0:
    return X
  mask = (torch.rand(X.shape)>dropout).float()#当随机生成的数字大于dropout是 返回1 反之返回0
  return mask * X / (1.0- dropout)

dropout1, dropout2 = 0.2, 0.5
num_inputs, num_outputs, num_hiddens1, num_hiddens2 = 784, 10, 256, 256

class Net(nn.Module):
    def __init__(self, num_inputs, num_outputs, num_hiddens1, num_hiddens2,
                 is_training = True):
        super(Net, self).__init__()
        self.num_inputs = num_inputs
        self.training = is_training
        self.lin1 = nn.Linear(num_inputs, num_hiddens1)
        self.lin2 = nn.Linear(num_hiddens1, num_hiddens2)
        self.lin3 = nn.Linear(num_hiddens2, num_outputs)
        self.relu = nn.ReLU()

    def forward(self, X):
        H1 = self.relu(self.lin1(X.reshape((-1, self.num_inputs))))
        # 只有在训练模型时才使用dropout
        if self.training == True:
            # 在第一个全连接层之后添加一个dropout层
            H1 = dropout_layer(H1, dropout1)
        H2 = self.relu(self.lin2(H1))
        if self.training == True:
            # 在第二个全连接层之后添加一个dropout层
            H2 = dropout_layer(H2, dropout2)
        out = self.lin3(H2)
        return out


net = Net(num_inputs, num_outputs, num_hiddens1, num_hiddens2)

from re import L
num_epochs, lr, batch_size = 10, 0.5, 256
loss = nn.CrossEntropyLoss(reduction='none')
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
trainer = torch.optim.SGD(net.parameters(),lr=lr)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)

运行结果: 

将dropout设置为0 即使用正常的完整的网络进行训练,此时有过拟合的可能,可以看出还是使用dropout的效果好一点:

 当两层的dropout概率为1时,即全丢弃的时候。

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

丢弃法深度学习模型中用于应对过拟合问题的一种方法,特指倒置丢弃法 [^1]。 在使用丢弃法时,以隐藏层为例,设输入为 \(x_1, \ldots, x_4\),隐藏单元 \(i\) 的权重参数为 \(w_{1i}, \ldots, w_{4i}\),偏差参数为 \(b_i\),激活函数为 \(\phi\)。当对该隐藏层使用丢弃法,该层的隐藏单元有一定概率被丢弃。设丢弃概率为 \(p\),随机变量 \(\xi_i\) 为 0 和 1 的概率分别为 \(p\) 和 \(1 - p\),那么有 \(p\) 的概率 \(h_i\) 会被清零,有 \(1 - p\) 的概率 \(h_i\) 会除以 \(1 - p\) 做拉伸,从而计算新的隐藏单元 \(h_i'\) [^2]。丢弃概率是丢弃法的超参数 [^2]。 在推理过程中,丢弃法直接返回输入 \(h = \text{dropout}(h)\),这样能保证确定性的输出。丢弃法常作用在多层感知机的隐藏层输出上,通过将一些输出项随机置为 0 来控制模型复杂度 [^3]。 ### 代码示例 ```python import torch import torch.nn as nn # 定义一个简单的多层感知机,包含丢弃层 class MLP(nn.Module): def __init__(self, input_size, hidden_size, output_size, dropout_prob): super(MLP, self).__init__() self.fc1 = nn.Linear(input_size, hidden_size) self.dropout = nn.Dropout(dropout_prob) self.fc2 = nn.Linear(hidden_size, output_size) self.relu = nn.ReLU() def forward(self, x): x = self.relu(self.fc1(x)) x = self.dropout(x) x = self.fc2(x) return x # 示例使用 input_size = 10 hidden_size = 20 output_size = 2 dropout_prob = 0.5 model = MLP(input_size, hidden_size, output_size, dropout_prob) input_tensor = torch.randn(1, input_size) output = model(input_tensor) print(output) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值