BERT在finetune时,优化器的选择其实是有讲究的,这里进行相关整理~
BERT在预训练时,对标准Adam优化器优化过程进行了省略
所以,BERT_Adam会造成Finetune时的不稳定(insstability)
小样本学习的时候,一定记得要换回标准的Adam优化器!

BERT在finetune时,优化器的选择其实是有讲究的,这里进行相关整理~
BERT在预训练时,对标准Adam优化器优化过程进行了省略
所以,BERT_Adam会造成Finetune时的不稳定(insstability)
小样本学习的时候,一定记得要换回标准的Adam优化器!