机器学习周报-文献阅读-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_51923997/article/details/145414693

文章目录

- 摘要
- abstract
1 文献内容
2 实验
3 Savitzky-Golay滤波器(SG filter)
4 代码
- 总结

摘要

本周阅读了一篇基于并行结构TCN-LSTM和Savitzky-Golay滤波器的混合深度学习模型在风电功率预测中的应用为题的论文,文章提出一种基于并行架构TCN - LSTM的混合深度学习模型用于风电预测，采用Savitzky - Golay滤波器处理输入风速时间序列。通过三组对比实验，验证了该模型的有效性和优越性，在减少训练参数和计算时间的同时提高了预测性能，为风电预测深度学习网络混合模型开发提供了新方法。

abstract

This week, I read a paper titled “Application of a Hybrid Deep Learning Model Based on Parallel Architecture TCN-LSTM and Savitzky-Golay Filter in Wind Power Prediction.” The article proposes a hybrid deep learning model based on the parallel architecture of TCN-LSTM for wind power prediction, utilizing the Savitzky-Golay filter to process the input wind speed time series. Through three sets of comparative experiments, the effectiveness and superiority of the model were verified. It improves prediction performance while reducing the number of training parameters and computation time, providing a new approach for the development of hybrid models in deep learning networks for wind power prediction.

1 文献内容

论文题目：A hybrid deep learning model based on parallel architecture TCN-LSTM
with Savitzky-Golay filter for wind power prediction
期刊：Energy Conversion and Management
中科院分区：工程技术1区；影响因子：9.9

目前，各种预测方法层出不穷。风力发电预测方法可以根据其基本原理和方法分为不同类型，包括物理模型，统计模型，机器学习模型和混合模型。物理模式利用数值天气预报（NWP）和计算流体动力学来模拟风场，获得气象数据（风速和风向，压力，空气密度，温度和湿度等）和环境风场信息（地形、轮廓、障碍物等），并结合风功率曲线预测风电机组出力。

文章主要创新点：

针对复杂风电时间序列的特征信息提取问题，提出了一种具有独特结构的混合深度学习神经网络模型。该混合模型基于并行架构的概念，具有低水平的复杂性，并且可以更准确和有效地估计风功率。
建立了一种混合模型并行结构，使用张量级联模块在特征维上级联TCN和LSTM网络输出矩阵。该方法能较好地保持混合模型和混合模型所获得的特征信息，提高了混合模型的特征学习能力
采用SG滤波器（SG filter）对输入的风速序列进行平滑和去噪处理，进一步提高了模型的预测性能。

1.1 具有并行架构的混合深度学习模型

TCN和LSTM都有各自的优势，适用于不同的场景。TCN使用多栈扩张因果卷积过程来关注时间序列数据中的局部特征和长期依赖性。另一方面，LSTM使用门控单元来保持整个序列的全局感知，将先前的信息存储在埋层中以传输上下文信息。通过结合这两个模型，我们可以充分利用每个模型以更完整、更有效的方式捕获本地和全球时间模式。因此，作者引入了一个具有专门架构的深度学习神经网络，混合了TCN和LSTM。架构图如图所示。

在这里插入图片描述

如图为：传统的TCN-LSTM和提出的PA-TCN-LSTM。（n表示TCN堆叠层数; m是LSTM层数; o是最后一层TCN中的过滤器数量; p是最后一层LSTM中的单元数量）

1.2 时域卷积网络(TCN)

在这论文中，作者采用TCN网络提取风电时间序列数据中特定时间步长的特征，通过训练实现特征和趋势学习，以改善未来的功率输出预测

1. 因果卷积（Causal Convolutions）

TCN使用因果卷积（Causal Convolution）来确保模型不会违反时间顺序。因果卷积的输出只依赖于当前时刻及其之前的输入，而不依赖于未来的输入。在标准的卷积操作中，每个输出值都基于其周围的输入值，包括未来的时间点。但在因果卷积中，权重仅应用于当前和过去的输入值，确保了信息流的方向性，避免了未来信息泄露到当前输出中。为了实现这一点，通常会在卷积核的右侧填充零（称为因果填充），这样只有当前和过去的信息被用于计算输出。

在这里插入图片描述
图1：卷积核为2

公式： $y_t=\sum^{k-1}_{i=0}f(i)X_{t-i}$

d表示扩张率（dilation factor），k表示卷积核大小（filter size）

因果卷积存在问题： 需要一个非常深的网络或非常大的filters来增加卷积的感受野

通过使用扩张卷积来实现非常深的网络和增加卷积的感受野大小

2. 扩张卷积（Dilated Convolutions）

一个简单的因果卷积只能回顾网络深度上有限大小的历史信息，在面对较长的历史的任务时，要如何解决？

使用扩张卷积来实现指数级大的感受野，使用扩张卷积，随着网络的深度以指数方式增加d（即 $d=O(2^i)$ ， $i$ 表示网络为第几层），这使卷积核可以命中有效历史中的每个输入，同时还允许使用更深的网络来处理非常大的有效历史。

下图为：扩张因果卷积图，其中扩张因子d=1,2,4;卷积核k大小=3

在这里插入图片描述

如图所示，每一层中一个单元要回顾上一层中(k-1)×d个有效历史信息（扩张因子决定了卷积核中元素之间的间距，例如，如果扩张因子为2，则卷积核中的元素会间隔一个输入单元）。

公式：
$y_t=\sum^{k-1}_{i=0}f(i)X_{t-d·i}$
d表示扩张率（dilation factor），k表示卷积核大小（filter size）

3. 残差连接（Residual Connections）

TCN的感受野取决于

网络深度n;
卷积核大小k;
扩张因子d;

在实际预测中，可能取决于大小为 $2^{12}$ 的历史和高维输入序列，就需要多达12层的网络，就是每一层由多个用于特征提取的卷积核组合。在通用TCN模型中，采用了通用残差模块代替卷积层。

如图 TCN 结构图。一个残差块包含两层的卷积和非线性映射，在每层中还加入了 WeightNorm 和 Dropout 来正则化网络。为什么要 1×1 卷积呢？1×1 卷积是可以用来降维的。作者直接把较下层的特征图跳层连接到上层，对应的每个 Cell 的特征图数量（也就是通道数 channel）不一致，导致不能直接做类似 Resnet 的跳层特征图加和操作，于是，为了两个层加和时特征图数量吻合，用 1×1 卷积做了一个降维的操作。

在这里插入图片描述
TCN使用残差连接来缓解梯度消失问题并促进更深层网络的训练。残差连接是残差网络（ResNets）的关键组成部分，由何凯明等人提出。它的主要目的是解决深层神经网络训练中的梯度消失/爆炸问题，以及提高网络的训练效率和性能。在残差连接中，网络的某一层的输出直接加到几层之后的另一层上，形成所谓的“跳跃连接”。