
论文分享
文章平均质量分 95
放空儿
开心就好,遇到问题不气馁,放松会儿,吃点东西,说不准就有头绪了
展开
-
CSformer:结合通道独立性和混合的稳健多变量时间序列预测
在多变量时间序列领域,信道独立性的概念因其消除噪声和无关变量影响的能力而被广泛采用,并展现出了卓越的性能。然而,这种概念往往简化了信道之间的复杂交互,可能导致信息丢失。为了解决挑战,本文提出了一种信道独立性与混合相结合的策略。引入了CSformer,这是一个具有两阶段多头自注意力机制的新型框架。该机制旨在提取和整合信道特定和序列特定的信息。CSformer的独特之处在于采用参数共享来增强这两种信息之间的协同效应。该框架还有效地结合了序列和信道适配器,显著提高了模型在不同维度上识别重要信息的能力。原创 2025-05-29 15:10:00 · 721 阅读 · 0 评论 -
TimeDistill:通过跨架构蒸馏的MLP高效长期时间序列预测
本文提出了一种跨架构知识蒸馏(KD)框架TimeDistill,用于提高轻量级多层感知机(MLP)模型在长期时间序列预测任务上的性能。作者观察到,尽管先进的架构如Transformer和CNN在性能上表现出色,但由于计算和存储需求高,在大规模部署中面临挑战。相比之下,简单的MLP模型具有更高的效率,但性能较低。TimeDistill的关键思想是从教师模型(如Transformer、CNN)中提取补充模式,特别是时间和频域中的多尺度和多周期模式,并将其蒸馏到学生MLP模型中。原创 2025-04-30 19:46:42 · 1223 阅读 · 0 评论 -
DeepSeekMoE: Towards Ultimate Expert Specialization inMixture-of-Experts Language Models
研究动机:这篇文章主要讲的是如何让大型AI模型变得更聪明、更省电。就像我们人类有不同领域的专家(比如医生、工程师、厨师)一样,AI模型内部也可以分成很多“小专家”。传统的方法有点像每次只请几个大专家来解决问题,但这些大专家可能懂的东西有重复,效率不高。核心贡献:1、细粒度专家分割技术将原N个专家细分为m×N个更小的专家单元,每次激活m×K个单元。优势:增强专家组合的灵活性,促进知识聚焦,减少专家间的知识重叠。2、共享专家隔离机制固定保留。原创 2025-03-24 16:03:15 · 1203 阅读 · 0 评论 -
xPatch:具有指数季节性趋势分解的双流时间序列预测
设计了指数补丁(简称 xPatch),这是一种利用指数分解的新型双流架构。受经典指数平滑方法的启发,xPatch 引入了创新的季节趋势指数分解模块。此外,提出了一种由基于 MLP 的线性流和基于 CNN 的非线性流组成的双流架构。该模型研究了在非 Transformer 模型中使用补丁和通道独立性技术的好处。最后,开发了一个稳健的反正切损失函数和一个 S 型学习率调整方案,以防止过拟合并提高预测性能。原创 2025-03-09 21:14:23 · 1488 阅读 · 0 评论 -
TimeDART——结合扩散去噪和自回归建模的时间序列自监督学习框架
本文提出了TimeDART 一种结合因果Transformer编码器和扩散模型的框架,通过自回归生成和扩散去噪联合优化,同时建模时间序列的长期动态演化(全局特征)与局部细节模式(局部特征)。原创 2025-02-24 16:51:08 · 1461 阅读 · 0 评论 -
基于Pathways架构的自适应多尺度时间序列预测模型Pathformer
这篇文章的思路就是:通过傅立叶变化进行周期分解,把时序数据自适应切分为最佳的、不同尺度的patch,然后设计patch内和patch间的注意力机制,进行下游任务。关于自适应尺度这样的学术词汇,以电影举例,有的电影情节冗长拖沓,我们就会快进,看电影的粒度和尺度就会更宽。而有的电影情节紧凑,我们会慢慢欣赏,看电影的粒度和尺度就很精细。自适应的意思就是根据电影情节密度自动帮你计算合适的快进步长。原创 2025-02-11 13:58:05 · 1764 阅读 · 0 评论 -
ConvTimeNet: A Deep Hierarchical Fully Convolutional Modelfor Multivariate Time Series Analysis
ConvTimeNet 提出了一种深度层次化的全卷积网络,针对时间序列分析中的核心挑战,采用了如下关键技术组件设计:可变形时间片嵌入:采用数据驱动的方式切分时间序列,自适应选择最具信息量的局部模式,避免固定窗口切割带来的信息损失。深度层次化的全卷积块:将深度可分卷积和点卷积结合,并通过大卷积核机制扩大感受野,增强多尺度信息建模能力。原创 2025-02-08 17:11:58 · 1135 阅读 · 0 评论 -
GSPN——在convolution基础上并行序列建模
一种名为广义空间传播网络(GSPN)的新型注意力机制。GSPN能够自然地捕捉图像中的二维空间结构,这与传统的注意力模型不同。与处理多维数据时将其作为一维序列的其他模型(如Transformer和Mamba)相比,GSPN直接在空间连贯的图像数据上操作,并通过线扫描方法形成了像素间的密集连接。GSPN的核心是其Stability-Context Condition,它保证了在二维序列上的稳定传播,并显著提高了计算效率,因为它将处理的数据量减少到了原始数量的平方根。原创 2025-02-06 13:37:51 · 1054 阅读 · 0 评论 -
TimeBridge——长、短期时间序列预测中的非平稳性问题
这篇论文提出了一种名为TimeBridge的新框架,旨在解决多变量时间序列预测中非平稳性带来的挑战。非平稳性(如短期波动和长期趋势)可能导致虚假回归或掩盖重要的长期关系。现有方法通常要么完全消除非平稳性,要么完全保留,未能有效区分其对短期和长期建模的不同影响。TimeBridge的核心思想是通过将输入序列分割为小块(patches),分别处理短期和长期依赖关系。原创 2025-01-18 13:21:55 · 1265 阅读 · 0 评论 -
MODERNTCN:A MODERN PURE CONVOLUTION STRUCTURE FORGENERAL TIME SERIES ANALYSIS
基于Transformer 及 MLP 模型在时间序列分析中迅速崛起并占据主导,卷积在时间序列任务中因性能欠佳而势头渐弱。探讨如何在时间序列分析中更好地利用卷积,使卷积重回该领域。对传统 TCN 进行现代化改进,使其更适用于时间序列任务,提出 ModernTCN,在五个主流时间序列分析任务中达到先进水平,同时保持卷积模型的效率优势,揭示 ModernTCN 具有更大的有效感受野,能更好地发挥卷积在时间序列分析中的潜力,而且它也保持了基于卷积的模型的效率优势,提供了性能和效率的更好平衡。原创 2025-01-12 22:22:53 · 1253 阅读 · 4 评论 -
SOFTS论文idea的尝试:采用GLAFF论文的思想“归一化用中位数和分位数范围增强对异常值的抵抗力效果”
将原来使用均值和标准差进行归一化和反归一化的部分,修改为使用中位数和四分位距(分位数)。具体来说,在forecast函数中,首先计算x_enc的中位数median,并将其用于中位数归一化。然后,计算x_enc的0.25分位数lower_q和0.75分位数upper_q,并计算它们的差值作为四分位距iqr,用于分位数归一化。在反归一化部分,我们将dec_out乘以iqr并加上median,以实现反归一化操作。需要注意的是,这里的分位数计算使用了torch.quantile函数,其中025和0.75分别表示计算原创 2025-01-05 14:15:46 · 918 阅读 · 0 评论 -
SOFTS: Efficient Multivariate Time Series Forecastingwith Series-Core Fusion——论文分享
近期研究显示,通道独立性有助于抵御数据分布变化,但忽视了通道间的相关性,限制了模型性能的提升。为了解决这一问题,研究者尝试了注意力机制和Mixer等方法来加强通道间的联系,但这些方法可能导致模型过于复杂或对通道依赖过重,影响模型在数据变化时的表现,尤其在多通道情况下更为明显。为了克服这些挑战,文章介绍了一种新的基于MLP的神经网络模型——SOFTS,它包含一个名为STAR的模块,以更简单直接的方式处理通道间的交互,避免了复杂结构带来的问题。原创 2024-12-30 20:10:49 · 1253 阅读 · 0 评论 -
GLAFF插件(时间戳在时间序列预测中的作用)--论文分享
背景:现有的工作主要集中在局部预测,时间戳仅仅被当作一种可选的补充,没有得到充分利用。当从真实的世界收集的数据被污染时,全局信息的缺失将损害这些算法的鲁棒预测能力。为了解决该问题,提出一种新的框架GLAFF。在此框架内,时间戳被单独建模以捕获全局依赖性。作为一个插件,GLAFF自适应地调整全局和局部信息的组合权重,实现与任何时间序列预测主干的无缝协作。GLAFF操作步骤:第一步采用基于注意力的映射器来单独建模包含全局信息的时间戳,并将其映射到符合标准分布的观测值,第二步处理滑动窗口的观察结果中存在异常的情原创 2024-12-18 15:44:16 · 1589 阅读 · 4 评论