Meta的跨时代赌注：字节级Transformer彻底消灭不必要的计算

原创

于 2025-01-07 11:51:14 发布 · 876 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #人工智能

人工智能的近代历史上，很少有研究敢于挑战现有前沿AI模型的基础。

而Meta正是通过推出字节级Transformer（BLTs），试图解决AI当前最大的问题之一，同时让AI模型的思维方式更加接近人类。

今天，您将更清晰地了解AI，揭示它的局限性，并提供一个直观的解决方案，解决那些曾让硅谷许多人彻夜难眠的问题。或许，您还会了解到Meta下一代模型Llama 4的秘密。

让我们开始吧！

Tokenization争议

虽然我们已经非常擅长训练能够模拟智能的模型（尽管实际上更多是记忆，就像我们之前讨论过的那样），但这些模型在处理数据的方式上仍然非常反直觉。

静态计算问题

并非所有问题都是平等的。由于人类的能量和认知带宽有限，我们会根据问题的重要性调整“思考的努力”。例如，解复杂的数学问题和为宝宝唱摇篮曲显然需要不同程度的脑力投入。

正如您可能知道的，大型语言模型（LLM）和大型推理模型（LRM）通过预测文本序列中的下一个单词来“工作”（例如，“波兰的首都是…”会输出“华沙”，尽管实际过程要复杂一些）。

然而，人类并不会对每个单词投入相同的计算，但当前的模型对每一次预测分配的计算量却完全相同。实际上，运行模型的GPU执行的计算量在每种情况下完全相同（随着文本序列长度的增加，计算需求也会增长，但每次预测的成本与预测任务无关）。

简单来说，模型背后存在大量不必要的计算。而造成这一问题的原因正是所谓的“tokenization”。

Token的重要作用

您可能听说过“token”这个词。在文本处理中，它通常是单词或子单词，也就是模型实际预测的单位；LLM并不预测整个单词，而是预测token，这些token可以是完整单词，也可以不是。

这种tokenization的理念适用于所有数据模态。从文本到视频生成，所有

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。