论文学习：深度神经网络时间序列建模（1）

最新推荐文章于 2025-03-29 09:43:18 发布

iyangdi

最新推荐文章于 2025-03-29 09:43:18 发布

阅读量2.4k

点赞数

分类专栏：时间序列深度神经网络文章标签：神经网络深度学习时间序列

时间序列同时被 2 个专栏收录

3 篇文章

订阅专栏

深度神经网络

2 篇文章

订阅专栏

Title	Content
原文	Modling Time-Series with Deep Networks
文章信息	Martin langkvist， 2014
文章性质	Paper汇编
说明	以下内容是本人学习过程中的摘要笔记，有需求深入了解的最好还是看原文

摘要

深度学习atrractive的特性：可以利用没有标签的数据

对复杂高维时间序列的建模有以下挑战
（1）要么修改学习算法
（2）要么对数据进行特殊的预处理

很多传感器数据其实是冗余的，可能都是对一种影响因数的监测
而且误差敏感，如错误、噪声、sensor bias
所以一般分析多变量的时间序列多是过度的预处理数据，如去噪声和复杂度、特征提取、信号移除，遮羞都需要一些专家知识的

本文贡献：深度学习算法修改，可以更好处理多元变量时间序列数据
目的：能够改变每个输入信号对特征学习的影响数量，减少了噪声的、任务无关输入对学习的特征的影响

Papers

Paper	Content
A Revire of Unsupervised Feature Learning and Deep Learnng for Time Seies Modeling, Pattern Recognition Letters	深度学习在时间序列上的研究现状，review

Chapter 1 - 简介

深度学习的研究多着眼于在static data上，也可以用到时间序列上，但是会丢失temporal信息，所以需要进行学习算法的改进
很多用于时间序列的深度学习算法都会在元数据上进行特征提取，所以学习到的特征不是在元数据直接构建的

现在的无监督特征学习算法将输入同等对待
但是对于多元时间序列数据集，某些信号可能包含更多的相关信息，假如他包含很多噪声，简单的去除有时可以很好地降维，但是它也可能包含重要信息，所以需要的是动态的focus在输入的子集，这也是现在特征学习算法欠缺的

本文贡献：
（1）Review，结构化数据特征表示学习的挑战+当前时间序列上深度学习模型的应用情况
（2）应用深度学习模型在实际数据上
（3）展示深度学习模型在原始多元时间序列上可以构建有用的特征
（4）修改one representational学习算法，使之可以应用到多元

Chapter 2 - Representation 学习

数据表示的选择对机器学习算法有重大影响

2.1 - 贪婪逐层预训练

该方法解决了梯度消失的问题，也就是在有监督学习中，从顶层来的误差，到达第一层的时候消失了
它提供更有用的参数初始化方法，而不是随机选择
在用有监督的方式微调整个网络的前，它用无监督的方式，单独训练每一层
所以其深度网络的训练方式：
（1）用Greedy layer-wise pre-traning训练每一层，来初始化其参数
（2）有有监督的方式微调整个网络，使其为某个task达到最优
但是如果有大量打了标签的数据，可以跳过（1）

2.2 - 过拟合和正则化

过拟合：当有很多无关变量，如噪声等等，导致模型过分拟合这些变量
解决法：调整复杂度 or 正则化

正则化：
减少模型允许的参数空间，引领特征学习的过程能够能高的泛化未见的数据

2.3 - Hyperparameter

训练深度网络的挑战：有很多design选择
选择举例：
connectivity, architecture, 最优化方法, Hyperparameter
每个regularization项来源于1或则多个Hyperparameter
最优化的选择也来自于a number of Hyperparameter, 例如学习率、momentum

全网格搜索不现实，建议随机网格搜索，或者结构化的Hyperparameter最优化？？？

建议：要找到好的Hyperparameter值，应该寻找评估或监测无监督学习模型，而不是用最后预测的性能

2.4 - Optimization

最优化方法举例：
SGD：stochastic gradient desent，随机梯度下降。通常建议用它，因为效率高
CG：conjugate gradient

Batch methold:
L-BFGS：Limited Broyden-Fletcher-Goldfarb-Shanno，可以自动设置最佳学习率
Hessian-free optimation

这些方法都有各自需要最优化的Hyperparameter，因为有的可以自动提供优化

需要最优化的Hyperparameter举例：
学习率、learning rate decay，mini-batch size，训练迭代次数

2.5 - 分类与回归

主要任务：分类与回归

2.6 - 深度学习模块

有很多模块可以用于无监督特征学习，且可以stacked to 建立深度网络
例子：
RBM：Restricted Boltzmann Machines
auto-encoders
sparse coding
deep Boltzmann machines
K-means

2.6.1 - RBM

RBM是一个generative probalilistic无向的graphical模型
包含可见单元 $v$ ，隐藏单元 $h$ , bias 向量 $c$ 和 $b$
权重矩阵 $W$ 连接可见层和隐藏层

给定可见和隐藏向量：
energy function : $E(v,h)=h^TWv+b^Th+c^Tv$
联合分布： $P(v,h)=\frac1Zexp^{E(v,h)}$
partion function： $Z$ , 保证分布normalized

对于 Bernoulli-Bernoulli RBM (binary visible and hidden units)
给定可见向量 $v$ , 隐藏单元 $h_j$ 被激发的概率： $P(h_j|v)=\sigma(b_j+\sum\limits_i{W_{ij}v_j})$
给定隐藏单元 $h$ ，可见单元 $v_i$ 被激发的概率： $P(v_i|h)=\sigma(c_j+\sum\limits_j{W_{ij}h_j})$
$\sigma(.)$ 表示激发函数
常用的激发函数是sigmoid activation function = $\sigma{(x)}=\frac1{1+e^{-x}}$
但是也越来越多的开始用 rectified linear units

模型参数 $\theta={W,b,v}$ 被训练，最小化训练数据的似然（log）

2.6.2 Conditional Restricted Boltzmann Machine

在多元变量时间序列数据中
cRBM 有自回归权重，可以model short-term temporal依赖
有隐藏单元，可以model long-term temporal结构

cRBM 和 RBM 类似，只是它对于可见层和隐藏层的bias是动态的，且依赖于previous可见层
动态bias：
$b^*_j=b_j+\sum{^n_{i=1}}B_iv(t-i)$
$c^*_j=c_j+\sum{^n_{i=1}}A_iv(t-i)$
$A_i$ 是可见层间的自回归，回归的是 $t-i$ 可见层与当前 $t$ 可见层
$B_i$ 是权重矩阵，连接 $t-i$ 时刻的可见层与当前隐藏层