Kaggle Feedback Prize 3比赛总结：针对层级的训练策略

最新推荐文章于 2024-05-24 16:42:18 发布

原创

最新推荐文章于 2024-05-24 16:42:18 发布 · 877 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #python

Last Layers Re-initialization

我们不使用所有层的预训练权重，而是使用原始的Transformer初始化来重新初始化指定的层数。重新初始化的层会破坏这些特定块的预训练知识。我们知道较低的预训练层学习更多的全局一般特征，而靠近输出的较高的层则更专注于预训练任务。因此初始化较高的层，并重新训练能够让网络更好的学习当前特定的任务。下面的例子是初始化 roberta 最后两层。

from transformers import AutoConfig
from transformers import AutoModelForSequenceClassification


reinit_layers = 2
_model_type = 'roberta'
_pretrained_model = 'roberta-base'
config = AutoConfig.from_pretrained(_pretrained_model)
model = AutoModelForSequenceClassification.from_pretrained(_pretrained_model)

if reinit_layers > 0:
    print(f'Reinitializing Last {
     
     reinit_layers} Layers ...')
    encoder_temp = getattr(model, _model_type)
    for layer in encoder_temp.encoder.layer[-reinit_layers:]:
        for module in layer.modules():