新型模型架构（参数化状态空间模型、状态空间模型变种）

最新推荐文章于 2025-08-05 21:25:17 发布

三月七꧁ ꧂

最新推荐文章于 2025-08-05 21:25:17 发布

阅读量312

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM 文章标签：语言模型 gpt 文心一言 prompt embedding AIGC agi

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43961909/article/details/140267836

LLM 专栏收录该内容

56 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

文章目录

- 参数化状态空间模型
- 状态空间模型变种

Transformer 模型自问世以来，在自然语言处理、计算机视觉等多个领域得到了广泛应用，并展现出卓越的数据表示与建模能力。然而，Transformer 的自注意力机制在计算每个词元时都需要利用到序列中所有词元的信息，这导致计算和存储复杂度随输入序列长度的平方级别增长。在处理长序列时，这种复杂性会消耗大量的计算资源与存储空间。为了解决这个问题，研究人员致力于新型模型架构的设计。这些新型模型大多基于参数化状态空间模型（State Space Model, SSM）进行设计，在长文本建模效率方面相比 Transformer 有了大幅改进，同时也保持了较好的序列建模能力。

图片名称 — 不同模型的比较（T 表示序列长度，H 表示输入表示的维度，N 表示状态空间模型压缩后的维度，M 表示 Hyena 每个模块的层数）

参数化状态空间模型

状态空间模型是一种动态时域模型，在控制系统、经济学等多个领域都有着广泛应用。近年来，深度学习领域也开始引入参数化状态空间模型对于序列数据进行建模。通俗来说，参数化状态空间模型可以看作是循环神经网络和卷积神经网络的“结合体”。一方面，该模型可以利用卷积计算对输入进行并行化编码。另一方面，该模型在计算中不需要访问前序的所有词元，仅仅利用前一个词元就可以自回归地

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

三月七꧁ ꧂ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。