预训练模型基础:bpe_simple_vocab_16e6.txt 语料库,BPE 算法
该文件名中的“16e6”表示该词汇表在包含约16百万单词的语料库通过BPE算法得到的;该算法是是当前最常见 tokenizer 的编码方法,用于 GPT (OpenAI) 和 Bert (Google) 的 Pre-training Model。文件内的单元是基于统计学上的频次自动生成的子词单元。BPE(Byte Pair Encoding)是一种自然语言压缩算法,目的是使用最少的 token 数目来表示一个语料库 corpus。,以区分字符在末尾与非末尾是不一样的。
原创
2024-04-17 01:55:39 ·
1380 阅读 ·
0 评论