论文学习:深度神经网络时间序列建模(1)

TitleContent
原文Modling Time-Series with Deep Networks
文章信息Martin langkvist, 2014
文章性质Paper汇编
说明以下内容是本人学习过程中的摘要笔记,有需求深入了解的最好还是看原文

摘要

深度学习atrractive的特性:可以利用没有标签的数据

对复杂高维时间序列的建模有以下挑战
(1)要么修改学习算法
(2)要么对数据进行特殊的预处理

很多传感器数据其实是冗余的,可能都是对一种影响因数的监测
而且误差敏感,如错误、噪声、sensor bias
所以一般分析多变量的时间序列多是过度的预处理数据,如去噪声和复杂度、特征提取、信号移除,遮羞都需要一些专家知识的

本文贡献:深度学习算法修改,可以更好处理多元变量时间序列数据
目的:能够改变每个输入信号对特征学习的影响数量,减少了噪声的、任务无关输入对学习的特征的影响

Papers

PaperContent
A Revire of Unsupervised Feature Learning and Deep Learnng for Time Seies Modeling, Pattern Recognition Letters深度学习在时间序列上的研究现状,review

Chapter 1 - 简介

深度学习的研究多着眼于在static data上,也可以用到时间序列上,但是会丢失temporal信息,所以需要进行学习算法的改进
很多用于时间序列的深度学习算法都会在元数据上进行特征提取,所以学习到的特征不是在元数据直接构建的

现在的无监督特征学习算法将输入同等对待
但是对于多元时间序列数据集,某些信号可能包含更多的相关信息,假如他包含很多噪声,简单的去除有时可以很好地降维,但是它也可能包含重要信息,所以需要的是动态的focus在输入的子集,这也是现在特征学习算法欠缺的

本文贡献:
(1)Review,结构化数据特征表示学习的挑战+当前时间序列上深度学习模型的应用情况
(2)应用深度学习模型在实际数据上
(3)展示深度学习模型在原始多元时间序列上可以构建有用的特征
(4)修改one representational学习算法,使之可以应用到多元

Chapter 2 - Representation 学习

数据表示的选择对机器学习算法有重大影响

2.1 - 贪婪逐层预训练

该方法解决了梯度消失的问题,也就是在有监督学习中,从顶层来的误差,到达第一层的时候消失了
它提供更有用的参数初始化方法,而不是随机选择
在用有监督的方式微调整个网络的前,它用无监督的方式,单独训练每一层
所以其深度网络的训练方式:
(1)用Greedy layer-wise pre-traning训练每一层,来初始化其参数
(2)有有监督的方式微调整个网络,使其为某个task达到最优
但是如果有大量打了标签的数据,可以跳过(1)

2.2 - 过拟合和正则化

过拟合:当有很多无关变量,如噪声等等,导致模型过分拟合这些变量
解决法:调整复杂度 or 正则化

正则化:
减少模型允许的参数空间,引领特征学习的过程能够能高的泛化未见的数据

2.3 - Hyperparameter

训练深度网络的挑战:有很多design选择
选择举例:
connectivity, architecture, 最优化方法, Hyperparameter
每个regularization项来源于1或则多个Hyperparameter
最优化的选择也来自于a number of Hyperparameter, 例如学习率、momentum

全网格搜索不现实,建议随机网格搜索,或者结构化的Hyperparameter最优化 ???

建议:要找到好的Hyperparameter值,应该寻找评估或监测无监督学习模型,而不是用最后预测的性能

2.4 - Optimization

最优化方法举例:
SGD:stochastic gradient desent,随机梯度下降。通常建议用它,因为效率高
CG:conjugate gradient

Batch methold:
L-BFGS:Limited Broyden-Fletcher-Goldfarb-Shanno,可以自动设置最佳学习率
Hessian-free optimation

这些方法都有各自需要最优化的Hyperparameter,因为有的可以自动提供优化

需要最优化的Hyperparameter举例:
学习率、learning rate decay,mini-batch size,训练迭代次数

2.5 - 分类与回归

主要任务:分类与回归

2.6 - 深度学习模块

有很多模块可以用于无监督特征学习,且可以stacked to 建立深度网络
例子:
RBM:Restricted Boltzmann Machines
auto-encoders
sparse coding
deep Boltzmann machines
K-means

2.6.1 - RBM

RBM是一个generative probalilistic无向的graphical模型
包含可见单元 v,隐藏单元 h, bias 向量 cb
权重矩阵 W 连接可见层和隐藏层

给定可见和隐藏向量:
energy function : E(v,h)=hTWv+bTh+cTv
联合分布:P(v,h)=1ZexpE(v,h)
partion function:Z , 保证分布normalized

对于 Bernoulli-Bernoulli RBM (binary visible and hidden units)
给定可见向量 v, 隐藏单元 hj 被激发的概率:P(hj|v)=σ(bj+iWijvj)
给定隐藏单元 h, 可见单元vi 被激发的概率:P(vi|h)=σ(cj+jWijhj)
σ(.) 表示激发函数
常用的激发函数是sigmoid activation function = σ(x)=11+ex
但是也越来越多的开始用 rectified linear units

模型参数 θ=W,b,v 被训练,最小化训练数据的似然(log)

2.6.2 Conditional Restricted Boltzmann Machine

在多元变量时间序列数据中
cRBM 有自回归权重,可以model short-term temporal依赖
有隐藏单元,可以model long-term temporal结构

cRBM 和 RBM 类似,只是它对于可见层和隐藏层的bias是动态的,且依赖于previous可见层
动态bias:
bj=bj+ni=1Biv(ti)
cj=cj+ni=1Aiv(ti)
Ai 是可见层间的自回归,回归的是 ti 可见层与当前 t 可见层
Bi 是权重矩阵,连接 ti 时刻的可见层与当前隐藏层

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值