自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(200)
  • 收藏
  • 关注

原创 机器翻译之Irish-based Large Language Model with Extreme Low-Resource Settings in Machine Translation

NMT专注于翻译,通过神经网络将源语言文本转换为目标语言文本,适用于各种语言对翻译,但对低资源语言的支持有限。LLMs是通用的语言模型,支持更广泛的NLP任务,包括翻译、问答、文本生成等,具备良好的语言理解能力,但对低资源语言支持仍有待改进。两者结合在一起时,可以利用LLMs的语言理解能力来改进NMT在低资源语言中的表现,提升模型在多语言任务中的适用性。我们的框架采用了两阶段训练过程动态持续预训练在这个阶段中,我们并非对LLM的所有层都进行训练,而是根据模型层的语言能力来选择性地训练特定层。

2024-10-04 14:13:43 995 1

原创 SAMformer————3. Experiments(未完...)

通过这一段的描述,作者成功地展示了SAMformer在多变量长期时间序列预测任务中的优势。与当前最先进的模型相比,SAMformer不仅在预测精度上有显著提升,而且在参数量上也大幅减少,使得模型更为高效。这些实验结果进一步证明了SAMformer的设计选择(如通道级注意力和SAM优化)的有效性,并为其在实际应用中的潜力提供了有力的支持。使用的数据集作者在实验中使用了8个公开的真实世界多变量时间序列数据集,这些数据集常用于长期预测任务。

2024-09-01 10:21:17 1246 1

原创 SAMformer——2.Proposed Approach

这一框架的核心是通过训练一个由参数ω\omegaω决定的函数(或模型)来预测多变量时间序列的未来值。在训练过程中,通过最小化均方误差,模型学习如何从历史数据中提取有用的信息,从而进行准确的预测。作者希望设计一个高效的Transformer模型来解决生成模型的问题。应用注意力机制:直接对输入矩阵XXX应用注意力机制(Attention)。残差连接:将输入矩阵XXX添加到注意力机制的输出中,形成一个残差连接(Residual Connection)。线性层输出。

2024-08-30 19:31:04 697

原创 论文符号含义

通过这些符号约定和定义,我们能够更加精确地表示和处理数学和机器学习中的矩阵和向量操作。(scalar values):使用普通的字母表示,例如参数 λ 表示一个标量值。,表示大小为 n×n 的单位矩阵,其对角线元素为 1,其他元素为 0。的 Frobenius 范数,即矩阵中所有元素的平方和的平方根。(matrices):使用加粗的大写字母表示,例如矩阵。(vectors):使用加粗的小写字母表示,例如向量。的秩,即矩阵中线性无关的行或列的最大数目。(Frobenius norm):记作 ∥。

2024-08-11 16:24:35 1390

原创 T5 模型详解

T5 模型在 Dimba 模型中扮演了关键角色,通过将输入文本描述转化为特征向量,为图像生成过程提供了丰富的语义信息。T5 模型的文本到文本框架、基于 Transformer 的架构,以及预训练与微调的结合,使其在处理多种 NLP 任务时具有高度的灵活性和强大的性能。

2024-07-26 15:31:45 1660

原创 Dimba: Transformer-Mamba Diffusion Models————3 Methodology

文本处理:输入的文本描述通过 T5 模型提取特征,生成文本特征向量。图像处理:输入图像通过 VAE 编码器转换为潜在表示,并添加噪声。时间步信息:时间步信息通过共享的 MLP 投影,并插入到自适应归一化层中。Dimba 块前馈网络层对输入特征进行非线性变换。双向 Mamba 层处理特征,减少内存使用,提高计算效率。交叉注意力模块将文本特征与图像特征整合,增强语义一致性。自注意力模块捕捉全局依赖关系,增强特征表达能力。输出:经过多个 Dimba 块的处理,生成最终的高质量图像。

2024-07-26 11:03:05 1322

原创 Dimba: Transformer-Mamba Diffusion Models————Abstract

Dimba 是一种全新的文本到图像扩散模型,采用独特的混合架构,结合了 Transformer 和 Mamba 元素。具体来说,Dimba 通过交替堆叠 Transformer 层和 Mamba 层来构建模型,并通过交叉注意力层整合条件信息,从而充分利用这两种架构的优势。我们探讨了多种优化策略,包括质量调优、分辨率适应,并确定了大规模图像生成所需的关键配置。

2024-07-25 21:33:12 535

原创 Mambaformer家族、Mamba和Transformer的结构(忽略残差连接和层归一化)

图2展示了Mambaformer家族、Mamba和Transformer的结构。为了说明,我们忽略了图中Mamba层、注意力层和前馈层相关的残差连接和层归一化。

2024-07-25 21:17:35 891

原创 mamba是如何处理内在序列顺序的

Mamba模型通过其核心机制,特别是状态空间模型(SSM)和卷积操作,内在地处理序列顺序信息。

2024-07-25 21:11:01 1026

原创 Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting————4 METHODOLOG

Mambaformer模型通过结合Mamba块和多头注意力机制,利用状态空间建模和注意力机制捕捉时间序列数据中的长短期依赖关系。这种架构允许高效处理和预测,融合了Mamba和Transformer模型的优势。受混合架构在语言建模中优势的启发【23】,我们提出利用Mambaformer来整合Mamba和Transformer,以捕捉时间序列数据中的长短期依赖,从而提升性能。Mambaformer采用类似GPT系列【5, 25, 26】的仅解码器(decoder-only)架构。

2024-07-25 19:05:29 1218

原创 Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting———PRELIMINARIES

相比传统的RNN和LSTM,SSM具有更好的计算效率,特别是在长时间序列中。例如,知道某天是周末还是工作日、某个时间点是白天还是晚上,可以帮助模型更好地预测某些类型的数据,如交通流量或能源消耗。这个卷积过程允许在一次计算中考虑到多个时间步的输入对输出的影响,从而实现更高效的计算。步,以包含最新的数据。这种方法确保了模型始终使用最新的信息进行预测,有助于应对时间序列中的变化趋势。的未来值,这要求模型能够捕捉和理解数据中的趋势和模式,从而提供精确的预测。个时间步的信息,并且根据这些新的数据进行下一步的预测。

2024-07-25 15:51:41 1191

原创 从 S4 到 S6 的转换过程

通过这个具体的例子,我们展示了从 S4 模型到 S6 模型的转换过程。S6 模型通过为每个批次和序列位置提供独特的B\mathbf{B}BC\mathbf{C}C和Δ\DeltaΔ参数,从而允许更加灵活和精细的处理。这种方法能够更好地适应输入数据的变化,提高模型的性能和表达能力。

2024-07-24 14:44:44 1361

原创 在状态空间模型(SSM)中,详细的计算步骤和矩阵乘法示例

通过这个具体的例子,我们展示了如何进行矩阵乘法以计算状态更新和输出。在状态空间模型中,A\mathbf{A}A和B\mathbf{B}B用于状态更新,而C\mathbf{C}C用于计算输出。每个时间步的输入xtxt与B\mathbf{B}B相乘,加上前一个时间步的状态htht与A\mathbf{A}A相乘,得到新的状态ht1ht1。最终,通过与C\mathbf{C}C相乘,得到输出ytyt。

2024-07-24 14:34:43 1461 1

原创 Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting——ABSTRACT

在这篇论文中,我们提出了一种混合框架Mambaformer,它内部结合了Mamba用于长程依赖关系和Transformer用于短程依赖关系,以进行长短程时间序列预测。通过将Mamba用于捕捉季节性变化(长程依赖)和Transformer用于捕捉每天的天气模式(短程依赖),Mambaformer可以更准确地预测未来的天气。同样,在股市预测中,Mamba可以捕捉到市场的长期趋势,而Transformer则可以捕捉到日常的市场波动,从而更好地预测股票价格。

2024-07-23 13:20:04 452 1

原创 结构化状态空间序列模型(S4)的图示解释

在选择性状态空间模型中,状态转移矩阵AAA、输入矩阵BtB_tBt​、输出矩阵CtC_tCt​和离散化参数Δt\Delta_tΔt​共同作用,决定了系统的动态行为和输入输出关系。通过动态调整这些参数,模型能够高效地处理长序列数据,适应不同的输入特性,提高计算效率和预测准确性。3. 输入选择机制(Selection Mechanism)Project:这个部分负责将输入映射到适合状态空间模型处理的高维空间。:这是一个选择机制,根据当前输入动态调整状态空间模型的参数(如B。

2024-07-15 14:53:40 1749

原创 实验证实Mamba的潜力

通过在合成任务、音频和基因组学建模以及语言建模上的实验验证,Mamba展示了其作为通用序列基础模型的巨大潜力。它不仅在多个模态和任务上表现出色,还具备处理长上下文数据的能力,显著提高了训练和推理效率。Mamba的线性时间复杂度和高效性使其在实际应用中具有广泛的前景。

2024-07-14 08:40:15 493

原创 MLP是多层感知机(Multi-Layer Perceptron)

在Transformer模型中,MLP块用于在自注意力机制之后进一步处理信息。它通过两个线性变换和一个非线性激活函数实现对输入向量的非线性变换和处理,从而增强模型的表达能力。通过这种结构,Transformer能够在捕捉序列中不同位置之间的依赖关系的同时,有效处理和表示复杂的输入数据。

2024-07-14 08:31:36 1937

原创 Mamba: Linear-Time Sequence Modeling with Selective State Spaces——Introduction 2

Mamba架构利用SSMs和MLP块的优势,创建了一个简单、高效且强大的序列模型。通过结合选择性状态空间,模型能够动态调整输入数据的重要性,从而在各种任务中表现更好。选择性SSMs和Mamba架构通过结合高质量性能、快速训练和推理以及处理长上下文的能力,成为通用基础模型在序列上运行的理想选择。这些特性使其在语言处理、基因组学等多个领域表现出色,处理长序列数据时具有显著优势。

2024-07-13 16:58:53 798

原创 Mamba: Linear-Time Sequence Modeling with Selective State Spaces——Introduction 1

首先,我们识别了先前模型的一个关键限制:在输入依赖的情况下有效选择数据的能力(即,关注或忽略特定输入)。基于选择性复制和归纳头等重要的合成任务的直觉,我们通过基于输入参数化SSM参数,设计了一个简单的选择机制。这使得模型能够过滤掉不相关的信息,并无限期地记住相关信息。

2024-07-13 16:54:49 767

原创 Abstract

然而,Transformer在处理长序列时的计算效率问题,促使研究人员开发了许多子二次时间复杂度的架构,如线性注意力、门控卷积和递归模型,以及结构化状态空间模型(SSMs)。尽管这些模型在计算效率上有所改进,但在语言等重要模态上的性能却不如传统的注意力机制。:通过让SSM参数成为输入的函数,解决了这些模型在离散模态(如语言)上的不足。:尽管这种改进阻止了使用高效的卷积运算,研究人员设计了一种在递归模式下的硬件感知并行算法,提升了计算效率。研究人员发现,这些模型在内容为基础的推理能力上存在关键弱点。

2024-07-13 12:41:16 345

原创 The S4 Parameterization: Normal Plus Low-Rank——HiPPO 矩阵的分解及其计算效率问题

通过上述分解和例子,我们可以理解 HiPPO 矩阵的分解方式及其局限性,并预期提出的三种新技术将有效解决计算瓶颈。这种方法使我们能够在实际应用中更高效地处理 HiPPO 矩阵。

2024-07-13 12:25:27 1040

原创 The S4 Parameterization: Normal Plus Low-Rank——矩阵的对角化、条件数以及 HiPPO 矩阵的特性

通过这些具体的例子,我们可以看到为什么HiPPO矩阵不能被酉矩阵对角化,并理解对角化和条件数之间的关系。这段话讨论了矩阵的对角化、条件数以及 HiPPO 矩阵的特性。不能被酉矩阵对角化,验证了HiPPO矩阵不能被酉矩阵对角化的说法。是对称矩阵,必然是正规矩阵。,都无法得到一个对角矩阵。这个矩阵不是正规矩阵,因为。考虑一个简单的非正规矩阵。我们尝试找一个酉矩阵。,但无论我们怎么选择。

2024-07-13 12:12:04 1335

原创 Method: Structured State Spaces (S4)——动机:对角化(Motivation: Diagonalization)

通过将矩阵AAA转换为规范形式(特别是对角化),可以显著简化状态空间模型的计算。这一方法利用了范德蒙德矩阵的性质,通过快速傅里叶变换等高效算法,降低了计算复杂度,使得状态空间模型在处理大规模序列数据时更加高效和实用。

2024-07-12 17:14:07 754

原创 论文简要目录

在第1节中,我们介绍了状态空间模型(SSMs)的四种属性,这些属性在图1中有所描述:经典的连续时间表示、使用HiPPO框架处理LRD、离散时间递归表示和可并行化的卷积表示。特别是,第2.4节引入了SSM卷积核K,这是我们在第3节中理论贡献的重点。我们的技术成果集中在开发 S4 参数化,并展示如何高效计算所有视图的状态空间模型(SSM)(第2节):连续表示(A,B,C)(1),递归表示(A,B,C)(3),以及卷积表示 K(4)。

2024-07-12 09:43:49 356

原创 Background: State Spaces——训练状态空间模型(SSMs):卷积表示

通过将递归状态空间模型(SSM)转换为卷积表示,我们可以利用FFT等高效算法进行训练和计算。这种方法不仅解决了序列性问题,还显著提高了计算效率。卷积核KKK的计算虽然复杂,但这是实现高效计算的关键。

2024-07-12 09:38:04 696

原创 Background: State Spaces——Discrete-time SSM: The Recurrent Representation(离散时间 SSM:循环表示)

通过上述步骤,我们得到的离散化 SSM 可以处理离散输入序列,实现序列到序列的映射,并且可以像 RNN 一样进行计算。为了将连续时间 SSM 离散化,我们采用双线性方法(bilinear method),这种方法将状态矩阵。)时,我们需要将连续时间状态空间模型(SSM)离散化。通过以上步骤,我们将原本的连续时间 SSM 转换为一个序列到序列的映射。这样,离散化后的 SSM 可以像 RNN 一样计算。的函数,但为了书写方便,当上下文明确时,我们省略这层依赖关系。的模型调整为处理离散序列的方法。

2024-07-12 09:08:41 817

原创 Background: State Spaces——Addressing Long-Range Dependencies with HiPPO

HiPPO理论(High-order Polynomial Projection Operator)是一种连续时间记忆的理论,旨在通过特定矩阵A的使用来提升序列数据的记忆效果。LSSL(Linear State-Space Layer)利用该理论,旨在通过将特定的矩阵A整合到状态方程中,从而使状态x(t)能够记忆输入u(t)的历史。

2024-07-12 08:52:53 855

原创 Background: State Spaces——状态空间模型 (State Space Models, SSMs): 连续时间隐状态模型

这意味着通过反向传播,我们可以调整这些参数,使得模型在给定数据上的预测性能最优。通过上述步骤,可以有效地训练状态空间模型,使其能够处理各种时间序列数据,包括图像、音频、文本等领域的数据。假设我们有一个简单的控制系统,用于控制一个物体的运动。我们的目标是将SSM作为深度序列模型中的一个黑箱表示,其中矩阵。是直接传输矩阵,描述了输入信号对输出的直接影响。是输入矩阵,描述了输入信号对状态的影响。是状态矩阵,描述了状态之间的相互关系。是输出矩阵,描述了状态对输出的影响。是施加的力,输出信号。

2024-07-11 18:51:39 2566 1

原创 Woodbury恒等式

Woodbury恒等式,又称为Woodbury矩阵恒等式或Sherman-Morrison-Woodbury公式,是线性代数中的一个重要结果。它提供了一种高效计算矩阵逆的方法,特别是在处理矩阵加上低秩更新的情况下。该恒等式在数值分析、统计学和机器学习中有广泛应用。Woodbury恒等式在处理矩阵加上低秩更新的逆运算时,非常高效且实用。它在许多应用场景中发挥了重要作用,如数值优化、机器学习中的高斯过程、贝叶斯统计等。

2024-07-11 15:43:36 1269

原创 如何理解低秩校正和柯西核

柯西核(Cauchy Kernel)是一种数学函数,常用于处理特定类型的积分问题。它在数值分析、统计学和机器学习中具有广泛的应用。柯西核函数以其在近似和核方法中的有效性而闻名,特别是在简化复杂计算时。Kxy1x−yKxyx−y1​其中,xxx和yyy是变量。这个形式展示了柯西核在两个点之间的相互作用,通常用于处理具有奇异点的积分。

2024-07-11 15:08:17 1030

原创 Efficiently Modeling Long Sequences with Structured State Spaces————Abstract

在序列建模中,一个核心目标是设计一个能够跨越多种模态和任务的统一模型,特别是在处理长距离依赖关系时。虽然传统模型如RNNs(递归神经网络)、CNNs(卷积神经网络)和Transformers都有专门的变种来捕捉长距离依赖关系,但它们在处理超过10000步的非常长序列时仍然面临挑战。x˙tAxtButytCxtDut研究表明,通过适当选择状态矩阵A,这个系统可以在数学上和经验上处理长距离依赖关系。然而,这种方法的计算和内存需求过高,作为一种通用的序列建模解决方案是不现实的。

2024-07-11 14:39:02 1422

原创 连续时间模型(Continuous-time)、循环神经网络(Recurrent),以及卷积神经网络(Convolutional)模型的工作机制及其特点。

连续时间模型适合处理连续和不规则采样的数据,常用于物理系统建模。循环神经网络擅长处理时间序列数据,能够捕捉序列中的依赖关系,适用于自然语言处理等领域。卷积神经网络则在图像处理和一些序列数据处理中表现出色,能够高效地提取局部特征并且易于并行化训练。

2024-07-10 10:01:03 1704

原创 状态空间模型(Structured Space Model)SSM

状态空间模型(Structured Space Model)## 1. **基本定义** - 源于现代控制系统理论。SSM是用于描述序列在各时间步的状态表示,并根据输入预测其下一个状态的模型。原始理论处理连续函数。 - 输入序列$x(t)$ - 隐状态表示$h(t)$ - 预测输出序列$y(t)$## 2. **公式表示** -$h'(t) = Ah(t) + Bx(t)$ -$y(t) = Ch(t) + Dx(t)$[公式详解文章链接](http

2024-07-09 19:00:52 4918

原创 SSM核心公式解释(离散化过程)

通过这些离散化方法,可以将连续时间的状态空间模型转化为离散时间模型,使其适用于数字控制和离散时间信号处理。这些公式描述了状态空间模型(SSM)中的离散化过程,特别是使用零阶保持方法对连续时间系统进行离散化。相同,因为输出是状态的直接观测,离散化不改变这个关系。即,输出是状态的线性变换。通常与连续时间系统的输出矩阵。:离散化后的状态转移矩阵。:当前时刻的隐状态向量。:离散化后的输入矩阵。:离散化后的输入矩阵。通过离散化后的输入矩阵。:离散化后的输出矩阵。通过离散化后的输出矩阵。通过各自的离散化矩阵。

2024-07-09 16:22:15 1838 1

原创 SSM核心公式解释(状态更新与输出 方程)

状态更新方程h′tAhtBxth′tAhtBxt表示,状态hth(t)ht随时间的变化由自身状态和输入决定。输出方程ytChtDxtytChtDxt表示,输出yty(t)yt由当前状态和输入共同决定。这种模型能够捕捉系统在各个时间点的状态变化,并根据输入预测未来的状态和输出,是现代控制理论和动态系统分析中的重要工具。

2024-07-09 16:07:15 1879 1

原创 扩散模型中采样过程(Sampling Process)的详细步骤和算法

扩散模型通过从标准正态分布采样初始噪声图像,并逐步去噪,最终生成高质量的图像。去噪过程中的关键在于噪声预测器的准确性和公式的合理性,确保每一步都能有效减少图像中的噪声,同时保持图像的结构和细节。

2024-07-09 11:07:01 2238

原创 Stable Diffusion 的工作框架

Stable Diffusion 框架通过在潜在空间中进行扩散过程,从噪声逐步生成清晰的图像。该过程结合了条件信息、去噪网络和解码器等多种技术,实现了从文本、语义图等多种输入条件生成高质量图像的能力。这种方法在生成图像任务中具有较高的灵活性和优越的性能。

2024-07-09 10:42:15 855

原创 文本到图像生成模型(Text-to-Image Generator)

这张图展示了一个文本到图像生成模型的工作原理,重点在于生成图像后的去噪过程。通过噪声预测器和多步迭代的去噪操作,最终生成清晰且符合文本描述的图像。这种方法在扩散模型和最近的生成对抗网络(GANs)等技术中被广泛使用,以提高生成图像的质量和细节。

2024-07-09 10:22:46 1211

原创 扩散模型(Diffusion Models)中的reverse process“(逆向过程)

在扩散模型(Diffusion Models)中,“reverse process”(逆向过程)是指从一个完全噪声化的样本逐步去噪,还原出原始数据的过程。这个过程通常在采样阶段进行。

2024-07-09 09:35:58 1432

原创 Diffusion models 终极流程

这张图片展示了两个算法,分别是用于训练和采样的。

2024-07-09 09:08:24 737

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除