这篇文章基于语义空间嵌入和掩码语言模型来给 NLU 任务做增强,具体的做法是:
首先利用BERT的分词器将序列中的单词分为多个词块(word pieces),BERT有两大分词器,BasicTokenizer 和 WordpieceTokenizer,其中BT是将句子分成基本的token,WPT是在BT的基础上利用贪婪最长优先匹配算法将单词分为词块(从左到右的顺序,将一个词拆分成多个子词,见如下动图)。

这篇文章为每个词块形成一个候选集。候选集的生成方式如下:
- 语义空间嵌入:如果词块不是一个完整的词(例如“est”),则候选集由 Glove 的 K-nearest-neighbor 词组成。
- 掩码语言模型:如果词块是一个完整的词,作者将其替换为[MASK],并使用BERT预测K个词形成候选集。
- 最后,每个词块都有 0.4 的概率被他们的候选集中的随机词替换,以达成增强

本文探讨了如何通过BERT的分词技术和候选集生成,结合语义空间嵌入和掩码语言模型,提升自然语言理解任务的性能。方法涉及将不完整词块与KNN词和完整词的[MASK]预测相结合,实现序列增强训练。
1054

被折叠的 条评论
为什么被折叠?



