xLSTM: Extended Long Short-Term Memory

本文是LLM系列文章,针对《xLSTM: Extended Long Short-Term Memory》的翻译。

摘要

在20世纪90年代,恒定误差转盘和门控被引入作为长短期记忆(LSTM)的核心思想。从那时起,LSTM经受住了时间的考验,并为众多深度学习成功案例做出了贡献,特别是它们构成了第一个大型语言模型(LLMs)。然而,以并行化自我关注为核心的Transformer技术的出现标志着一个新时代的到来,在规模上超过了LSTM。我们现在提出一个简单的问题:当利用现代LLM的最新技术,将LSTM扩展到数十亿个参数,同时减轻LSTM的已知局限性时,我们在语言建模方面能走多远?首先,我们介绍了具有适当归一化和稳定技术的指数门控。其次,我们修改了LSTM存储器结构,得到:(i)具有标量存储器、标量更新和新存储器混合的sLSTM,(ii)具有矩阵存储器和协方差更新规则的完全并行的mLSTM。将这些LSTM扩展集成到残差块主干中会产生xLSTM块,然后将其残差堆叠到xLSTM架构中。与最先进的Transformer和状态空间模型相比,指数门控和修改后的存储结构提高了xLSTM的性能,在性能和扩展方面都表现良好。

1 引言

2 扩展的长短期记忆

3 相关工作

4 实验

5 局限性

6 结论

我们已经部分回答了我们的简单问题:当将LSTM扩展到数十亿个参数时,我们在语言建模方面能走多远?到目前为止,我们可以回答:“至少就Transformer或状态空间模型等当前技术而言”。我们通过指数

### 区别与作用 在人工智能中,尤其是在涉及智能体(Agent)的场景下,**长时记忆(Long Memory)**和**短时记忆(Short-Term Memory)**是两个关键概念,它们分别对应智能体对信息的长期存储与短期处理能力。 #### 短时记忆(Short-Term Memory) 短时记忆类似于人类的认知功能,用于临时存储和处理当前任务所需的信息。对于智能体来说,短时记忆通常用于保存最近的经验或输入数据,以便快速响应当前环境状态。这种记忆的特点是容量有限且持续时间较短。例如,在传统的循环神经网络(RNN)中,隐层的输出可以被视为一种短时记忆,因为它仅保留了当前时刻的计算结果,而无法长时间保持之前的信息[^3]。 为了克服这一限制,LSTM(Long Short-Term Memory)引入了门控机制,包括输入门、遗忘门和输出门。这些机制允许模型选择性地保留或丢弃信息,从而延长了记忆的时间跨度[^1]。尽管如此,LSTM的设计初衷仍然是为了解决序列数据中的短期依赖问题,因此其核心功能依然偏向于短时记忆的优化。 #### 长时记忆(Long Memory) 长时记忆则专注于持久存储智能体的知识和经验,以便在未来的任务中使用。这种记忆形式通常通过更复杂的架构实现,例如外部记忆模块(External Memory)或者知识库(Knowledge Base)。长时记忆的特点是容量大且持续时间长,能够支持智能体进行跨任务的学习和推理。 在xLSTMExtended Long Short-Term Memory)中,模型进一步扩展了LSTM的功能,旨在提升对长期依赖关系的建模能力。通过引入额外的机制,xLSTM能够在更长的时间范围内保持信息,并增强对复杂模式的捕捉能力[^2]。 #### 应用场景 - **短时记忆**适用于需要即时反应的任务,例如实时决策、语音识别等。 - **长时记忆**则更适合需要长期规划和知识积累的任务,例如自然语言理解、多轮对话系统等。 ### 代码示例 以下是一个简单的LSTM模型实现,展示了如何利用门控机制处理短时记忆: ```python import torch import torch.nn as nn class LSTMModel(nn.Module): def __init__(self, input_size, hidden_size, output_size): super(LSTMModel, self).__init__() self.lstm = nn.LSTM(input_size, hidden_size) self.linear = nn.Linear(hidden_size, output_size) def forward(self, x, hidden): out, hidden = self.lstm(x, hidden) out = self.linear(out) return out, hidden # 示例参数 input_size = 10 hidden_size = 20 output_size = 5 model = LSTMModel(input_size, hidden_size, output_size) ``` ### 相关问题 1. 如何在深度学习中实现智能体的长时记忆? 2. xLSTM相比传统LSTM有哪些改进? 3. 短时记忆在强化学习中的具体应用场景是什么? 4. 长时记忆和知识图谱之间有何关联? 5. 智能体如何平衡长时记忆与短时记忆的使用?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值