本文是LLM系列文章,针对《Byte Latent Transformer: Patches Scale Better Than Tokens》的翻译。
Byte Latent Transformer:补丁的扩展性优于token
摘要
我们介绍了Byte Latent Transformer(BLT),这是一种新的字节级LLM架构,它首次大规模地匹配了基于token化的LLM性能,并显著提高了推理效率和鲁棒性。BLT将字节编码为动态大小的补丁,作为主要的计算单元。补丁根据下一个字节的熵进行分割,在数据复杂性增加的地方分配更多的计算和模型容量。我们首次对字节级模型进行了触发器控制的缩放研究,最大可达8B个参数和4T个训练字节。我们的结果证明了在没有固定词汇表的情况下,对原始字节训练的模型进行缩放的可行性。由于在数据可预测的情况下动态选择长补丁,以及推理和长尾泛化的定性改进,训练和推理效率都得到了提高。总体而言,对于固定的推理成本,BLT通过同时增加补丁和模型大小,显示出比基于token化的模型更好的扩展性。
订阅专栏 解锁全文
4805

被折叠的 条评论
为什么被折叠?



