循环神经网络:原理、应用与架构
1. 循环单元与语言模型构建
循环单元是构建语言模型的基础组件。我们可以使用图中所示的基本循环单元来构建语言模型。假设标记为“神经网络”的盒子里包含一个小型神经网络,由我们喜欢的任何层组成。我们可以将单词序列(以数字形式)输入到这个单元中。在每个单词输入后,单元会产生一个输出,用于预测下一个单词,并更新其内部状态,以记住到目前为止输入的单词。
为了复制相关实验,我们可以连续向单元输入五个单词,忽略前四个单词的输出。第五个输入后的输出将是对第六个单词的预测。如果在训练过程中预测不正确,我们通常会使用反向传播和优化来改进单元内神经网络的权重值,并继续训练。目标是最终使网络能够很好地解释输入并控制状态,从而做出准确的预测。
1.1 循环单元的实际操作
让我们看看循环单元如何预测一个由五个单词组成的序列中的下一个单词。我们可以通过展开图来查看输入和可能的输出。
我们从一个隐藏状态初始化为通用值(如全零)的单元开始,这表示还没有学习到任何信息。第一个单词“it”输入后,单元会考虑输入和其隐藏状态,并预测下一个单词为“swam”。但我们忽略这个预测,因为我们只关心第五个单词后的预测。
接着,第二个单词“was”输入,单元再次参考其隐藏状态和输入,产生一个新的输出预测“night”,完成短语“it was night”。单元更新其隐藏状态,以记住输入了“it”和“was”,并预测了“night”。同样,我们忽略这个预测。
这个过程一直持续到我们输入第五个单词“of”。在训练初期,系统可能会输出类似“jellyfish”的内容,完成句子“it was the best of jel
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



