
越来越多的大型语言模型(LLMs)开始采用大规模词汇表。例如,Llama 3、Qwen2 和 Gemma 等最新 LLMs 都使用了超过 12.8 万个词条的词汇表。
扩大词汇表能让 LLMs 更好地处理多样化用例,如多语言任务、代码生成和函数调用。更大的词汇表还能降低分词器的词元繁殖率(tokenizer fertility),这意味着编码句子所需的 token 数量更少。生成更少的 token 会带来更快的推理速度。最新研究(Tao 等人,2024 年)也表明,同时增加模型规模和词汇表规模能提升性能。
但更大的词汇表也伴随着显著缺点。例如,如果某个 LLM 专用于英语聊天应用,那些为覆盖其他语言而添加的非英语 token 几乎不会被使用。尽管如此,它们仍会消耗计算资源——因为模型必须在每个解码步骤预测它们的概率。此外,它们的嵌入向量会占用内存,导致推理和微调期间产生明显更大的激活值。
减少词汇表大小可以缩小模型体积,并提升推理和微调时的内存效率。当模型被量化时,这一效果会更加显著,因为大多数量化方法为了保留精度,通常不会对词嵌入层(token embeddings)和语言建模输出头(language modeling head)进行量化。
然而,词汇量缩减并非没有挑战。这可能会严重损害模型在语言生成任务中的表现
订阅专栏 解锁全文
1964

被折叠的 条评论
为什么被折叠?



