通过mamba预测下一个token的示例
首先进行线性投影以扩展输入嵌入,然后,在应用选择性 SSM之前先进行卷积(以防止独立的token计算)
Mamba的架构图
线性投影:
提升输入嵌入的维度,捕获更细致、更复杂的特征。
将原始输入数据映射到新的特征空间,使后续处理更有效。
卷积操作:
提取局部特征,识别序列中的局部模式和结构。
与SSM的长期依赖捕捉能力互为补充,增强模型整体性能。
保留和利用上下文信息,防止独立的token计算,确保上下文信息在处理过程中的传递。
“选择性SSM(即Selective SSM)”具有以下属性
Recurrent SSM通过离散化创建循环SSM
HiPPO对矩阵A进行初始化A以捕获长程依赖性
选择性扫描算法(Selective scan