Minivoc:通过词汇缩减实现更快更省内存的 LLMs

 越来越多的大型语言模型(LLMs)开始采用大规模词汇表。例如,Llama 3、Qwen2 和 Gemma 等最新 LLMs 都使用了超过 12.8 万个词条的词汇表。

扩大词汇表能让 LLMs 更好地处理多样化用例,如多语言任务、代码生成和函数调用。更大的词汇表还能降低分词器的词元繁殖率(tokenizer fertility),这意味着编码句子所需的 token 数量更少。生成更少的 token 会带来更快的推理速度。最新研究(Tao 等人,2024 年)也表明,同时增加模型规模和词汇表规模能提升性能。

但更大的词汇表也伴随着显著缺点。例如,如果某个 LLM 专用于英语聊天应用,那些为覆盖其他语言而添加的非英语 token 几乎不会被使用。尽管如此,它们仍会消耗计算资源——因为模型必须在每个解码步骤预测它们的概率。此外,它们的嵌入向量会占用内存,导致推理和微调期间产生明显更大的激活值。

减少词汇表大小可以缩小模型体积,并提升推理和微调时的内存效率。当模型被量化时,这一效果会更加显著,因为大多数量化方法为了保留精度,通常不会对词嵌入层(token embeddings)和语言建模输出头(language modeling head)进行量化

然而,词汇量缩减并非没有挑战。这可能会严重损害模型在语言生成任务中的表现

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

runner000001

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值