Byte Latent Transformer: Patches Scale Better Than Tokens

最新推荐文章于 2025-11-24 19:11:26 发布

UnknownBody

最新推荐文章于 2025-11-24 19:11:26 发布

阅读量456

点赞数 11

CC 4.0 BY-SA版权

分类专栏： LLM Daily 文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/145185118

LLM Daily 专栏收录该内容

1689 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文是LLM系列文章，针对《Byte Latent Transformer: Patches Scale Better Than Tokens》的翻译。

Byte Latent Transformer：补丁的扩展性优于token

摘要
1 引言
2 修补：从单个字节到字节组
3 BLT架构
4 实验设置
5 缩放趋势
6 字节建模提高了鲁棒性
7 消融和讨论
8 相关工作
9 局限性和未来工作
10 结论

摘要

我们介绍了Byte Latent Transformer（BLT），这是一种新的字节级LLM架构，它首次大规模地匹配了基于token化的LLM性能，并显著提高了推理效率和鲁棒性。BLT将字节编码为动态大小的补丁，作为主要的计算单元。补丁根据下一个字节的熵进行分割，在数据复杂性增加的地方分配更多的计算和模型容量。我们首次对字节级模型进行了触发器控制的缩放研究，最大可达8B个参数和4T个训练字节。我们的结果证明了在没有固定词汇表的情况下，对原始字节训练的模型进行缩放的可行性。由于在数据可预测的情况下动态选择长补丁，以及推理和长尾泛化的定性改进，训练和推理效率都得到了提高。总体而言，对于固定的推理成本，BLT通过同时增加补丁和模型大小，显示出比基于token化的模型更好的扩展性。

1 引言

2 修补：从单个字节到字节组

3 BLT架构

4 实验设置

5 缩放趋势

6 字节建模提高了鲁棒性

7 消融和讨论

8 相关工作

9 局限性

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。