keras learning rate

本文介绍了在Keras中调整深度学习模型学习率的方法,包括直接修改学习率、使用回调函数进行周期性衰减及自定义学习率衰减策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

http://machinelearningmastery.com/using-learning-rate-schedules-deep-learning-models-python-keras/


https://stackoverflow.com/questions/39779710/setting-up-a-learningratescheduler-in-keras    (打印出每一个周期的学习率lr的代码)


https://github.com/fchollet/keras/issues/898

直接使用命令设置

import keras.backend as K
sgd = SGD(lr=0.1, decay=0, momentum=0.9, nesterov=True)
K.set_value(sgd.lr, 0.5 * K.get_value(sgd.lr))


或者编写回调类

class decay_lr(Callback):
    ''' 
        n_epoch = no. of epochs after decay should happen.
        decay = decay value
    '''  
    def __init__(self, n_epoch, decay):
        super(decay_lr, self).__init__()
        self.n_epoch=n_epoch
        self.decay=decay

    def on_epoch_begin(self, epoch, logs={}):
        old_lr = self.model.optimizer.lr.get_value()
        if epoch > 1 and epoch%self.n_epoch == 0 :
            new_lr= self.decay*old_lr
            k.set_value(self.model.optimizer.lr, new_lr)
        else:
            k.set_value(self.model.optimizer.lr, old_lr)



decaySchedule=decay_lr(10, 0.95)


With TF backend, I did this (for inception-V3)

from keras.callbacks import LearningRateScheduler
def scheduler(epoch):
    if epoch%2==0 and epoch!=0:
        lr = K.get_value(model.optimizer.lr)
        K.set_value(model.optimizer.lr, lr*.9)
        print("lr changed to {}".format(lr*.9))
    return K.get_value(model.optimizer.lr)

lr_decay = LearningRateScheduler(scheduler)

model.fit_generator(train_gen, (nb_train_samples//batch_size)*batch_size,
                  nb_epoch=100, verbose=1,
                  validation_data=valid_gen,    nb_val_samples=val_size,
                  callbacks=[lr_decay])


以上都是以epoch为周期的,其实每一次minibatch就算一次update(例如model.train_on_batch()), iteration的状态+1, 这就是学习率中decay作用时的iteration数值,并不等于epoch. 一个epoch有多少minibatch,就有多少iteration
### 学习率嫁接(Learning Rate Grafting)概念 学习率嫁接是一种用于优化机器学习模型训练的技术,其核心思想在于通过动态调整不同层的学习率来提高模型收敛速度并改善性能。这种方法特别适用于深度神经网络,在这些网络中不同的层可能具有不同的特征复杂度和梯度分布。 在某些情况下,浅层网络的参数更新需求与深层网络存在显著差异。因此,采用统一的学习率可能导致部分层过拟合而其他层欠拟合的情况。学习率嫁接技术允许为每一层分配独立的学习率,从而更好地适应各层的具体需求[^1]。 以下是实现学习率嫁接的一种常见方式: #### 实现方法 一种简单的方法是在定义优化器时指定每层单独的学习率。以下是一个基于 PyTorch 的代码示例,展示如何为不同层设置不同的学习率: ```python import torch import torch.nn as nn import torch.optim as optim class SimpleModel(nn.Module): def __init__(self): super(SimpleModel, self).__init__() self.layer1 = nn.Linear(10, 20) self.layer2 = nn.Linear(20, 1) def forward(self, x): x = torch.relu(self.layer1(x)) x = self.layer2(x) return x model = SimpleModel() # 定义针对不同层的不同学习率 optimizer = optim.SGD([ {'params': model.layer1.parameters(), 'lr': 0.01}, {'params': model.layer2.parameters(), 'lr': 0.001} ], lr=0.0001) print(optimizer.param_groups) ``` 在此代码片段中,`layer1` 和 `layer2` 被赋予了各自独特的学习率,分别为 0.01 和 0.001,而未显式提及的其余参数则默认使用全局学习率 0.0001。 这种策略能够使较复杂的高层结构以更慢的速度更新权重,防止因剧烈变化而导致模型不稳定;同时让低级特征提取层快速适配数据特性[^1]。 ### 进一步扩展 除了手动设定分层学习率外,还可以利用自适应算法自动计算最佳值组合。例如 TensorFlow 或 Keras 提供的功能可以简化这一过程,并支持更多高级配置选项。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值