自然语言处理NLP，如何使用AMBERT算法建立多粒度token预训练语言模型

文宇肃然

于 2020-12-23 08:51:53 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能AI实战系列代码全解析

本文链接：https://blog.youkuaiyun.com/wenyusuran/article/details/108323288

人工智能AI实战系列代码全解析专栏收录该内容

64 篇文章 ¥29.90 ¥99.00

订阅专栏

AMBERT是字节跳动研究者提出的多粒度预训练语言模型，结合细粒度和粗粒度标记化，适用于英语和中文任务。在GLUE, SQuAD, RACE和CLUE基准数据集上，AMBERT表现优于单一粒度的BERT模型，尤其在中文任务中提升显著。" 123927189,13251542,深入理解JVM：Class文件加载机制,"['Java', '类加载器', '编程原理', 'JVM内存模型']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

字节跳动 Xinsong Zhang、李航两位研究者在细粒度和粗粒度标记化的基础上，提出了一种新的预训练语言模型，他们称之为 AMBERT（一种多粒度 BERT）。在构成上，AMBERT 具有两个编码器。

预训练语言模型如BERT在自然语言理解(NLU)的许多任务中表现出色。模型中的tokens通常是细粒度的，像英语是单词或sub-words或者是像中文字符。在英语中,例如,有多词表达形式的自然词汇单位,因此使用粗粒度标记似乎也是合理的。事实上，细粒度和粗粒度的标记化在学习预训练语言模型方面都有优缺点。在本文中，我们提出了一种新的基于细粒度和粗粒度标记的预训练语言模型，称为AMBERT(一种多粒度的BERT)。对于英语，AMBERT将单词序列(细粒度令牌)和短语序列(粗粒度令牌)作为标记化后的输入，使用一个编码器处理单词序列，另一个编码器处理短语序列，利用两个编码器之间的共享参数，最后创建单词的上下文化表示序列和短语的上下文化表示序列。

了解本专栏