10、深入探索XLM - R：从分词到自定义命名实体识别模型

最新推荐文章于 2025-09-19 11:54:40 发布

zero1

最新推荐文章于 2025-09-19 11:54:40 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：解密Transformer：从理论到实践文章标签： XLM-R SentencePiece 命名实体识别

本文链接：https://blog.youkuaiyun.com/zero1/article/details/152595739

解密Transformer：从理论到实践专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深入探索XLM - R：从分词到自定义命名实体识别模型

1. XLM - R简介

XLM - R在多语言自然语言理解（NLU）任务中表现出色。它仅使用掩码语言模型（MLM）作为100种语言的预训练目标，其预训练语料库规模巨大，包含每种语言的维基百科转储和2.5TB的Common Crawl网络数据，相比早期模型的语料库大了几个数量级，这为像缅甸语和斯瓦希里语等低资源语言提供了显著的信号提升。

模型名称中的“RoBERTa”表明其预训练方法与单语言RoBERTa模型相同。RoBERTa在BERT的基础上进行了改进，例如完全移除了下一句预测任务。XLM - R还舍弃了XLM中使用的语言嵌入，并使用SentencePiece直接对原始文本进行分词。与RoBERTa相比，XLM - R的词汇表大小为250,000个标记，而RoBERTa为55,000个。

2. 分词器对比：WordPiece与SentencePiece

XLM - R使用SentencePiece分词器，而不是WordPiece。为了对比两者，我们可以使用Transformers库加载BERT和XLM - R的分词器：

from transformers import AutoTokenizer
bert_model_name = "bert-base-cased"
xlmr_model_name = "xlm-roberta-base"
bert_tokenizer = AutoTokenizer.from_pretrained(bert_model_name)
xlmr_tokenizer = AutoToken