BERT的vocabulary字典

最新推荐文章于 2025-06-29 23:47:21 发布

街道口扛把子

最新推荐文章于 2025-06-29 23:47:21 发布

阅读量9.7k

点赞数 21

CC 4.0 BY-SA版权

分类专栏：深度学习 pytorch 文章标签： BERT NLP

本文链接：https://blog.youkuaiyun.com/m0_38133212/article/details/88614153

深度学习同时被 2 个专栏收录

23 篇文章

订阅专栏

pytorch

11 篇文章

订阅专栏

在pytorch-pretrained-BERT/pytorch_pretrained_bert/tokenization.py文件中可以看到BERT使用的vocabulary链接，但是不用特殊的上网方式打不开。

PRETRAINED_VOCAB_ARCHIVE_MAP = {
    'bert-base-uncased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased-vocab.txt",
    'bert-large-uncased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-uncased-vocab.txt",
    'bert-base-cased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-cased-vocab.txt",
    'bert-large-cased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-cased-vocab.txt",
    'bert-base-multilingual-uncased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-multilingual-uncased-vocab.txt",
    'bert-base-multilingual-cased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-multilingual-cased-vocab.txt",
    'bert-base-chinese': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese-vocab.txt",
}

打开后是这样的：

在这里插入图片描述
然后我通过审查元素，把他们都存了下来（除了两个multilingual）。