The Information of Large Language Model Geometry

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量465

点赞数 11

CC 4.0 BY-SA版权

分类专栏： LLM Daily 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/138866890

LLM Daily 专栏收录该内容

1691 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文深入研究大型语言模型（LLM）的嵌入信息，发现表示熵与模型大小呈幂律关系，并提出基于熵的理论解释。通过信息论和回归分析，揭示了自回归过程中新token与上下文token的关联，指出拉索回归在选择有意义token上的优势，且信息分布广泛而非集中。

本文是LLM系列文章，针对《The Information of Large Language Model Geometry》的翻译。

摘要

本文研究了大型语言模型（LLM）嵌入中编码的信息。我们进行模拟来分析表示熵，并发现与模型大小的幂律关系。基于这一观察结果，我们提出了一个基于（条件）熵的理论来阐明标度律现象。此外，我们深入研究了LLM的自回归结构，并使用信息论和回归技术研究了最后一个token和之前的上下文token之间的关系。具体来说，我们在新token的信息增益和岭回归之间建立了理论联系。此外，我们还探讨了拉索回归在选择有意义的token方面的有效性，它有时优于密切相关的注意力权重。最后，我们进行了受控实验，发现信息分布在token之间，而不是仅集中在特定的“有意义”token中。

1 引言

2 背景

3 LLM中的熵

4 自回归过程中的信息

5 相关工作

6 结论

在本文中，我们研究了在大型语言模型（LLM）嵌入中编码的信息。我们首先模拟了表示熵，发现它与模型大小之间遵循幂律关系。然后，我们提供了一个基于（条件）熵的理论，可以解释熵的标度律。由于现代LLM具有自回归结构，我们使用信息论、高斯过程和回归等工具研究了最后一个token与先前生成的token的关系。我们发现，新token的信息增益在理论上与岭回归有关。此外，受拉索回归和注意力机制之间密切关系的激励，我们发现拉索回归可以选择有意义的token，Lasso选择的token有时甚至比注意力权重更直观，这表明了MLP层在