记忆增强神经网络:从NTM到DNC的探索
1. 序列分析与RNN潜力
在处理复杂问题如机器翻译时,循环神经网络(RNN)展现出了一定的有效性。理论上,RNN架构是通用的函数表示器,即RNN具有图灵完备性,这意味着在合适的连接和参数下,RNN能够学习解决任何可计算问题。但在实践中,要实现这种通用性极为困难,原因在于RNN可能的连接方式和参数值构成的搜索空间极其庞大,梯度下降法难以在这个巨大空间中为任意问题找到合适的解决方案。
2. 工作记忆与Neural Turing Machines(NTM)
2.1 工作记忆的启示
以一个简单的阅读理解问题为例:
- “Mary travelled to the hallway. She grabbed the milk glass there. Then she travelled to the office, where she found an apple and grabbed it. How many objects is Mary carrying?”
我们的大脑在解决这个问题时,类似于一个简单的计算机程序:
1. 为计数器分配一个内存位置;
2. 将计数器初始化为0;
3. 遍历段落中的每个单词:
- 如果单词是“grabbed”,则增加计数器的值;
4. 返回计数器的值。
大脑在阅读过程中会分配记忆并存储信息,这种临时存储和处理信息的系统被称为工作记忆,它是接下来要讨论的研究方向的主要灵感来源。
2.2 NTM的提出
2014年,研究人员引入了Neural T
超级会员免费看
订阅专栏 解锁全文
16

被折叠的 条评论
为什么被折叠?



