Byte Latent Transformer: Patches Scale Better Than Tokens

本文是LLM系列文章,针对《Byte Latent Transformer: Patches Scale Better Than Tokens》的翻译。

摘要

我们介绍了Byte Latent Transformer(BLT),这是一种新的字节级LLM架构,它首次大规模地匹配了基于token化的LLM性能,并显著提高了推理效率和鲁棒性。BLT将字节编码为动态大小的补丁,作为主要的计算单元。补丁根据下一个字节的熵进行分割,在数据复杂性增加的地方分配更多的计算和模型容量。我们首次对字节级模型进行了触发器控制的缩放研究,最大可达8B个参数和4T个训练字节。我们的结果证明了在没有固定词汇表的情况下,对原始字节训练的模型进行缩放的可行性。由于在数据可预测的情况下动态选择长补丁,以及推理和长尾泛化的定性改进,训练和推理效率都得到了提高。总体而言,对于固定的推理成本,BLT通过同时增加补丁和模型大小,显示出比基于token化的模型更好的扩展性。

1 引言

2 修补:从单个字节到字节组

3 BLT架构

4 实验设置

5 缩放趋势

6 字节建模提高了鲁棒性

7 消融和讨论

8 相关工作

9 局限性

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值