天池-NLP中文预训练模型泛化能力挑战赛心路例程

原创于 2021-01-04 11:31:29 发布 · 557 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #机器学习 #python

比赛经历专栏收录该内容

3 篇文章

订阅专栏

在天池的NLP中文预训练模型泛化能力挑战中，作者分享了第一天的经验。基线实验中遇到k40显卡算力限制，只能运行pytorch1.3。关键提升点包括：利用BERT隐藏层，探索pooler output的作用，自适应训练如DAPT和TAPT，以及模型融合策略。作者提出多模型融合的优化问题，并提到textcnn与bert的结合应用可能带来显著效果提升。

部署运行你感兴趣的模型镜像

day1

跑了一个baseline
装k40的pytorch
真就坑死了，k40算力不够最多装pytorch1.3
pytorch1.3及以下没有的语法是

import torch
a = torch.tensor([1,2])
print(a==None) #判断是否为空

需要改成

import torch
a = torch.tensor([1,2])
print(a.numel()) #判断是否为空

提分点：
1、bert隐藏层的运用
2、pooler output
sequence_output表示最后一层。首先经过一个self.pooler变换，也就是sequence_output输入BertPooler这个类之后，取了句子第一个token（first_token_tensor，即CLS）的向量，然后将first_token_tensor输入self.dense。从该类的初始化中可知，self.dense是一个线性层，参数为768 * 768。经过该线性层之后，又过了一个Tanh激活函数。然后得到pooled_output(1 * 768 )。

经过BertModel类之后，返回了两个输出sequence_output(len * 768)和pooled_output(1 * 768 )。

3、自适应训练
DAPT (domain-adaptive pretraining )
TAPT(Task-Adaptive Pretraining)
4、模型融合
想问下，有多模型，额，多模型融合优化的课程嘛？工程上，想上一个，模型优化上，我看同样使用bert gpt模型优化的好的，有些融合模型，比直接用bert这些，能提升百分之30甚至40的效果。
5、textcnn+bert

您可能感兴趣的与本文相关的镜像