BERT模型自定义词汇以及token相关

最新推荐文章于 2025-11-11 19:52:46 发布

原创

最新推荐文章于 2025-11-11 19:52:46 发布 · 2.9k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #自然语言处理 #人工智能 #nlp #pytorch

本文介绍了如何在BERT模型中增加自定义词汇，如'COVID'和'hospitalization'，以保持单词完整性。通过调整模型和tokenizer的词汇表大小，并使用resize_token_embeddings方法，可以成功添加新词汇。此外，还讨论了BERT词表的修改和配置，以及保存自定义tokenizer到指定目录的方法。这对于适应特定下游任务和提高模型表现非常有用。

1.加载bert模型及分词

from transformers import AutoModelForMaskedLM, AutoTokenizer
model = "bert-base-cased"
tokenizer = AutoTokenizer.from_pretrained(model, use_fast=True)
model = AutoModelForMaskedLM.from_pretrained(model)