BERT 采用了 Transformer 的 encoder 侧网络,利用 self-attention 在编码一个 token 的时候同时利用了其上下文,并非像 Bi-LSTM 把句子倒序输入一遍。
BERT 在11种不同NLP测试中创出SOTA表现,将GLUE基准推高至80.4% (绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进5.6%),成为NLP发展史上的里程碑式的模型成就。

输入向量
BERT 的输入编码向量(512 个 token):
- WordPiece 嵌入:将单词划分成一组有限的公共字词单元,在有效性和字符的灵活性达到折中平衡。文本开头加上 [CLS][CLS][CLS] 表示用于分类任务,结尾加上

最低0.47元/天 解锁文章
1169

被折叠的 条评论
为什么被折叠?



