BERT模型自定义词汇以及token相关
最新推荐文章于 2025-11-11 19:52:46 发布
本文介绍了如何在BERT模型中增加自定义词汇,如'COVID'和'hospitalization',以保持单词完整性。通过调整模型和tokenizer的词汇表大小,并使用resize_token_embeddings方法,可以成功添加新词汇。此外,还讨论了BERT词表的修改和配置,以及保存自定义tokenizer到指定目录的方法。这对于适应特定下游任务和提高模型表现非常有用。

最低0.47元/天 解锁文章
6148





