SAN与PatchTST结合应用中的参数调优实践-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_07341/article/details/148327841

SAN与PatchTST结合应用中的参数调优实践

SAN Pytorch implementation of NIPS'23 paper: Adaptive Normalization for Non-stationary Time Series Forecasting: A Temporal Slice Perspective 项目地址: https://gitcode.com/gh_mirrors/san8/SAN

引言

在时间序列预测领域，SAN(Stationary Attention Network)和PatchTST作为两种具有代表性的模型架构，各自展现了优异的性能表现。然而，当尝试将这两种方法结合使用时，研究人员常常会遇到模型性能下降的问题。本文基于实际项目经验，深入探讨SAN与PatchTST结合应用中的关键参数设置问题。

模型架构特点分析

SAN采用非重叠切片(non-overlapping patching)的处理方式，而PatchTST则使用重叠切片(overlapping patching)策略。这种根本性的差异导致了两者在结合使用时需要特别注意参数调整：

切片长度(period_len)：这是影响模型性能的关键参数之一，不同数据集需要设置不同的最优值
学习率(station_lr)：SAN特有的学习率参数需要精细调整
RevIN层处理：PatchTST中原有的RevIN层在结合使用时需要被注释掉

各数据集最优参数配置

通过大量实验验证，针对不同数据集的最优参数配置如下：

| 数据集 | 切片长度(period_len) | SAN学习率(station_lr) | |-----------|-------------------|-------------------| | Electricity | 24 | 0.0001 | | Exchange | 24 | 0.001 | | Weather | 12 | 0.0001 | | ETTh1 | 4 | 0.0001 | | ETTm2 | 4 | 0.00005 |