自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 DeepSeekMoE: Towards Ultimate Expert Specialization inMixture-of-Experts Language Models

研究动机:这篇文章主要讲的是如何让大型AI模型变得更聪明、更省电。就像我们人类有不同领域的专家(比如医生、工程师、厨师)一样,AI模型内部也可以分成很多“小专家”。传统的方法有点像每次只请几个大专家来解决问题,但这些大专家可能懂的东西有重复,效率不高。核心贡献:1、细粒度专家分割技术将原N个专家细分为m×N个更小的专家单元,每次激活m×K个单元。优势:增强专家组合的灵活性,促进知识聚焦,减少专家间的知识重叠。2、共享专家隔离机制固定保留。

2025-03-24 16:03:15 1089

原创 xPatch:具有指数季节性趋势分解的双流时间序列预测

设计了指数补丁(简称 xPatch),这是一种利用指数分解的新型双流架构。受经典指数平滑方法的启发,xPatch 引入了创新的季节趋势指数分解模块。此外,提出了一种由基于 MLP 的线性流和基于 CNN 的非线性流组成的双流架构。该模型研究了在非 Transformer 模型中使用补丁和通道独立性技术的好处。最后,开发了一个稳健的反正切损失函数和一个 S 型学习率调整方案,以防止过拟合并提高预测性能。

2025-03-09 21:14:23 1123

原创 DeepSeek——推荐2025年潜在热点方向(时间序列预测)

2024年最容易出成果的方向:多模态时序预测(应用性强)、扩散模型(理论新颖)、低资源学习(贴合实际需求)。建议选择1个方向,在现有SOTA模型上改进1-2个模块,搭配充分实验,3个月内可完成一篇顶会投稿。需密切关注ArXiv的最新预印本(如搜索“time series forecasting 2024”),避免重复工作。t=P1C7。

2025-03-03 16:34:08 1054

原创 2024年时间序列预测领域的SOTA模型总结

本文借助了deepseek和自己的理解向大家主要介绍的是时间序列领域的不同场景的SOTA模型(涵盖长/短期预测、单/多变量场景),结合最新顶会论文和开源实现,按技术路线分类整理

2025-03-02 19:56:44 1640

原创 DeepSeek+Xmind快速生成思维导图(保姆级教学)

DeepSeek-+Xmind3分钟搞定思维导图保姆级教程

2025-02-25 17:16:53 536

原创 TimeDART——结合扩散去噪和自回归建模的时间序列自监督学习框架

本文提出了TimeDART 一种结合因果Transformer编码器和扩散模型的框架,通过自回归生成和扩散去噪联合优化,同时建模时间序列的长期动态演化(全局特征)与局部细节模式(局部特征)。

2025-02-24 16:51:08 1177

原创 多变量预测——VAR模型

什么是VAR模型?想象你和你的朋友每天都会互相影响心情。今天你的心情好坏,不仅受自己昨天心情的影响,还可能被朋友昨天的心情感染。VAR模型(Vector Autoregression,向量自回归)就像这样:它研究多个变量之间的“互相影响”关系,每个变量都依赖于自己和他人过去的“表现”。

2025-02-23 20:24:43 1100

原创 将混合专家(Mixture of Experts, MoE)路由机制引入时序预测方向的思路的拆解和优化建议

MoE的核心思想 通过路由机制动态分配输入数据到不同专家模型(Experts),每个专家专注于特定特征(如趋势、季节性、突发事件等),最终加权合并结果。优点:无需显式分解,通过数据驱动自动学习特征分配;支持异构专家(如CNN、LSTM、Transformer等混合使用)。缺点:路由机制设计复杂,训练难度较高。

2025-02-21 10:41:59 1028

原创 基于Pathways架构的自适应多尺度时间序列预测模型Pathformer

这篇文章的思路就是:通过傅立叶变化进行周期分解,把时序数据自适应切分为最佳的、不同尺度的patch,然后设计patch内和patch间的注意力机制,进行下游任务。关于自适应尺度这样的学术词汇,以电影举例,有的电影情节冗长拖沓,我们就会快进,看电影的粒度和尺度就会更宽。而有的电影情节紧凑,我们会慢慢欣赏,看电影的粒度和尺度就很精细。自适应的意思就是根据电影情节密度自动帮你计算合适的快进步长。

2025-02-11 13:58:05 1494 1

原创 ConvTimeNet: A Deep Hierarchical Fully Convolutional Modelfor Multivariate Time Series Analysis

ConvTimeNet 提出了一种深度层次化的全卷积网络,针对时间序列分析中的核心挑战,采用了如下关键技术组件设计:可变形时间片嵌入:采用数据驱动的方式切分时间序列,自适应选择最具信息量的局部模式,避免固定窗口切割带来的信息损失。深度层次化的全卷积块:将深度可分卷积和点卷积结合,并通过大卷积核机制扩大感受野,增强多尺度信息建模能力。

2025-02-08 17:11:58 1029

原创 多尺度自适应注意力机制代码讲解以及思路整理

多尺度自适应注意力机制关键步骤实现:多尺度特征投影:在不同尺度上捕获特征。多头注意力:并行处理多个注意力头,每个头处理不同尺度的特征。动态权重调整:使用控制向量动态调整不同尺度输出的权重。加权融合:将不同尺度的注意力输出加权融合,生成最终的注意力结果。

2025-02-06 20:38:22 1072

原创 GSPN——在convolution基础上并行序列建模

一种名为广义空间传播网络(GSPN)的新型注意力机制。GSPN能够自然地捕捉图像中的二维空间结构,这与传统的注意力模型不同。与处理多维数据时将其作为一维序列的其他模型(如Transformer和Mamba)相比,GSPN直接在空间连贯的图像数据上操作,并通过线扫描方法形成了像素间的密集连接。GSPN的核心是其Stability-Context Condition,它保证了在二维序列上的稳定传播,并显著提高了计算效率,因为它将处理的数据量减少到了原始数量的平方根。

2025-02-06 13:37:51 1012

原创 TimeBridge——长、短期时间序列预测中的非平稳性问题

这篇论文提出了一种名为TimeBridge的新框架,旨在解决多变量时间序列预测中非平稳性带来的挑战。非平稳性(如短期波动和长期趋势)可能导致虚假回归或掩盖重要的长期关系。现有方法通常要么完全消除非平稳性,要么完全保留,未能有效区分其对短期和长期建模的不同影响。TimeBridge的核心思想是通过将输入序列分割为小块(patches),分别处理短期和长期依赖关系。

2025-01-18 13:21:55 986 2

原创 MODERNTCN:A MODERN PURE CONVOLUTION STRUCTURE FORGENERAL TIME SERIES ANALYSIS

基于Transformer 及 MLP 模型在时间序列分析中迅速崛起并占据主导,卷积在时间序列任务中因性能欠佳而势头渐弱。探讨如何在时间序列分析中更好地利用卷积,使卷积重回该领域。对传统 TCN 进行现代化改进,使其更适用于时间序列任务,提出 ModernTCN,在五个主流时间序列分析任务中达到先进水平,同时保持卷积模型的效率优势,揭示 ModernTCN 具有更大的有效感受野,能更好地发挥卷积在时间序列分析中的潜力,而且它也保持了基于卷积的模型的效率优势,提供了性能和效率的更好平衡。

2025-01-12 22:22:53 1109 2

原创 SOFTS论文idea的尝试:采用GLAFF论文的思想“归一化用中位数和分位数范围增强对异常值的抵抗力效果”

将原来使用均值和标准差进行归一化和反归一化的部分,修改为使用中位数和四分位距(分位数)。具体来说,在forecast函数中,首先计算x_enc的中位数median,并将其用于中位数归一化。然后,计算x_enc的0.25分位数lower_q和0.75分位数upper_q,并计算它们的差值作为四分位距iqr,用于分位数归一化。在反归一化部分,我们将dec_out乘以iqr并加上median,以实现反归一化操作。需要注意的是,这里的分位数计算使用了torch.quantile函数,其中025和0.75分别表示计算

2025-01-05 14:15:46 872

原创 SOFTS: Efficient Multivariate Time Series Forecastingwith Series-Core Fusion——论文分享

近期研究显示,通道独立性有助于抵御数据分布变化,但忽视了通道间的相关性,限制了模型性能的提升。为了解决这一问题,研究者尝试了注意力机制和Mixer等方法来加强通道间的联系,但这些方法可能导致模型过于复杂或对通道依赖过重,影响模型在数据变化时的表现,尤其在多通道情况下更为明显。为了克服这些挑战,文章介绍了一种新的基于MLP的神经网络模型——SOFTS,它包含一个名为STAR的模块,以更简单直接的方式处理通道间的交互,避免了复杂结构带来的问题。

2024-12-30 20:10:49 995

原创 GLAFF插件(时间戳在时间序列预测中的作用)--论文分享

背景:现有的工作主要集中在局部预测,时间戳仅仅被当作一种可选的补充,没有得到充分利用。当从真实的世界收集的数据被污染时,全局信息的缺失将损害这些算法的鲁棒预测能力。为了解决该问题,提出一种新的框架GLAFF。在此框架内,时间戳被单独建模以捕获全局依赖性。作为一个插件,GLAFF自适应地调整全局和局部信息的组合权重,实现与任何时间序列预测主干的无缝协作。GLAFF操作步骤:第一步采用基于注意力的映射器来单独建模包含全局信息的时间戳,并将其映射到符合标准分布的观测值,第二步处理滑动窗口的观察结果中存在异常的情

2024-12-18 15:44:16 1351 4

原创 patchTST复现的问题,在执行python patchtst_pretrain.py --dset ettm1 --mask_ratio 0.4时候报错No module named ‘tsfm.

2024-11-06 21:19:30 146

原创 如何显示微信小程序用户更新页面的时间

2023-11-09 20:41:27 50 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除