ERNIE 1.0

1.0版本较BERT更改较少,结构如上图,主要表现在三个方面:(1)调整MASK策略;(2)增加异质数据;(3)增加DLM(Dialogue Language Model)任务。
(1)调整MASK策略
BERT中是随机MASK掉15%的words,并尝试在MLM任务中恢复。而ERNIE模型ERNIE的mask的策略是通过三个阶段学习的,在第一个阶段,采用的是BERT的模式,用的是basic-level masking,然后在加入词组的mask(phrase-level masking), 然后在加入实体级别entity-level的mask。
(2)增加异质数据(俺也不清楚异质数据是什么意思)
训练集包括了 - Chinese Wikepedia - Baidu Baike - Baidu news - Baidu Tieba 注意模型进行了繁简体的转化,以及是uncased。
(3)DLM(Dialogue Language Model)
对话的数据对语义表示很重要,因为对于相同回答的提问一般都是具有类似语义的,ERNIE修改了BERT的输入形式,使之能够使用多轮对话的形式,采用的是三个句子的组合[CLS]S1[SEP]S2[SEP]S3[SEP] 的格式。这种组合可以表示多轮对话,例如QRQ,QRR,QQR。Q:提问,R:回答。为了表示dialog的属性,句子添加了dialog embedding组合,这个和segment embedding很类似。 - DLM还增加了任务来判断这个多轮对话是真的还是假的。

ERNIE是百度提出的预训练语言模型,相较于BERT,它在1.0版本中调整了MASK策略,引入了异质数据和DLM(Dialogue Language Model)。2.0版本则采用了sequential multi-task learning,解决了模型在学习新任务后旧任务性能下降的问题。ERNIE在NLU任务上表现出色,其改进包括基本级、词组级和实体级的mask策略,以及利用多轮对话数据进行训练。
最低0.47元/天 解锁文章
2975

被折叠的 条评论
为什么被折叠?



