【ArXiv 2020】Tinybert: Distilling bert for natural language understanding

本文探讨了如何通过BERT的分词技术和候选集生成,结合语义空间嵌入和掩码语言模型,提升自然语言理解任务的性能。方法涉及将不完整词块与KNN词和完整词的[MASK]预测相结合,实现序列增强训练。

这篇文章基于语义空间嵌入掩码语言模型来给 NLU 任务做增强,具体的做法是:

首先利用BERT的分词器将序列中的单词分为多个词块(word pieces),BERT有两大分词器,BasicTokenizerWordpieceTokenizer,其中BT是将句子分成基本的token,WPT是在BT的基础上利用贪婪最长优先匹配算法将单词分为词块(从左到右的顺序,将一个词拆分成多个子词,见如下动图)。

u4ao7vr62

这篇文章为每个词块形成一个候选集。候选集的生成方式如下:

  • 语义空间嵌入:如果词块不是一个完整的词(例如“est”),则候选集由 Glove 的 K-nearest-neighbor 词组成。
  • 掩码语言模型:如果词块是一个完整的词,作者将其替换为[MASK],并使用BERT预测K个词形成候选集。
  • 最后,每个词块都有 0.4 的概率被他们的候选集中的随机词替换,以达成增强
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值