对循环神经网络（RNN）中time step的理解_timestep = 5 outstep = 1 xall = list() yall = list-优快云博客

1. 传统的循环神经网络

传统的神经网络可以看作只有两个time step。如果输入是“Hello”（第一个time step），它会预测“World”（第二个time step），但是它无法预测更多的time step。

2. LSTM、GRU等

【知乎】如何理解LSTM中的time step？ - 知乎 https://www.zhihu.com/question/271774530

比较好理解的回答：

文本处理中，一个单词代表一个timestep，在inference的时候，只能一个单词一个单词地输出；而在train的时候，我们有整个句子，因此可以一次feed若干个单词，比如Google is better than Apple，timestep为5，同时训练目标为is better than Apple [END]。
作者：尤洋
链接：https://www.zhihu.com/question/271774530/answer/364711129
来源：知乎

知乎中比较好的问题：

如何理解LSTM中的time step？ - 尤洋的回答 - 知乎 https://www.zhihu.com/question/271774530/answer/364711129 评论中其他用户比较好的提问如下：

【1】鸟与声俱去(提问)：假如train的时候time step是5，那weight的纬度不应该和time step的维度一致吗？所以在test时，只输入time step为1的数据，和weight的纬度不符啊？

HankGuo(回答)：这个不是维度，既然是循环神经网络，循环的次数就是任意的，time step是循环次数。每次循环是一个单词，维度是单词的词向量。另外train和test的时候应该time step不一致。seq2seq的编码是大于1，解码等于1。

尤洋(回答)：训练的时候会给如[batch_size, time_step, word_dim]维度的数据，最后一维是每个单词的embedding向量，每循环一次就将[batch_size, word_dim]输入一次，一共输入time_step次。

【2】荀日新(提问)：请教一下，time_step就是rnn单元的个数吗？

尤洋(回答)：两者不是一个东西，rnn个数是hidden layer和cell state的维度，time step是循环次数。

【3】q娃娃(提问)：您好，请教一下，在时间序列中，time_step该如何理解？期待您的回复，非常感谢！

尤洋(回答)：好比你有[batch, t, w]的数据，第一维是Batch，第二维是句子长度，第三维是每个单词的embedding，那么rnn就会循环t次，每次循环拿上一次的结果，以及这次的[batch, w]作为y输入。

【4】以梦为马(提问)：您好，我还有个问题想问下，time step为1的时候，是不是可以理解为用前一个数据去预测后一个数据？但是这样感觉很不靠谱？

尤洋(回答)：因为有Hidden state，前一个数据实际上是[hidden state, x]，是整合了之前的信息的。

3. 我的理解

time steps 就是循环神经网络认为每个输入数据与前多少个陆续输入的数据有联系。例如具有这样一段序列数据 “…ABCDBCEDF…”，当 time steps 为 3 时，在模型预测中如果输入数据为 “D”，那么之前接收的数据如果为 “B” 和 “C” 则此时的预测输出为B的概率更大，之前接收的数据如果为 “C” 和 “E”，则此时的预测输出为F的概率更大。

5 条评论

qq_40222761 2020.04.11

感觉timestep是为了让计算比较并行化而设定的吧

Fxyyjsl 2020.01.12

假设我的time_step设为24，也就是我这一个样本（24组输入数据）是有时序性的，当我训练下一个独立的样本（与上一个样本无时序关系，包括24组数据），lstm的隐藏层状态c、h会初始化吗？最后一个lstm单元中的权重和偏置参数会传递下去吗，还是会和c、h一样初始化？请教大佬。

Fxyyjsl 2020.01.12

佛系老王回复Fxyyjsl 2020.04.06
[reply]Fxyyjsl[/reply]这个可以根据自己模型怎么搭建的来选择的，你说的这两种情况都可以实现，但就你的这个例子来说，每个样本之间独立的话，你在每个样本进去之前初始化(h0, c0)=None就可以了

zhengtianyu1996 2019.10.21

感觉time_step的理解是个挺好的问题，却没有看到很多人讨论这个。请问楼主，在训练过程中我们设置时间步T，是因为我们认为我们只需要利用T步之内的时序关系，这个时候每T步走完之后，会对初始隐含层状态h^-1进行置零，你看我说得对吗？第二个问题是，在单次预测过程（不是test/eval，是实际的predict过程）中，我们还需要保证一定要输入T步数据吗，还是可以只输入1步数据，网络会自动利用前一步的预测结果？