语言生成能力与循环神经网络
自然语言的神奇之处在于其生成能力,每个母语者都能说出从未听过的句子,也能理解首次听到的句子。生成能力是自然语言的核心属性,但这也给语言的学习带来了挑战。研究人员一直致力于寻找一种学习机制,让计算机能像儿童学习母语或学生学习第二语言那样掌握生成性语言。本文将探讨如何通过神经网络等简单而强大的方法来理解语言学习中的生成能力。
语言生成能力与可学习性
自然语言与其他离散符号系统的区别在于其生成性。从理论上讲,语言的无限性似乎否定了其可学习性,但人类却能通过有限的、甚至可能是不合语法的句子学会自然语言。这表明,如果自然语言是可学习的,它应该由一组有限的规则生成。然而,即使规则有限,没有负面例子(不合语法的句子),我们也可能无法学会语言。
语言的生成能力主要由两个关键因素支撑:系统性和递归性。系统性与词汇类别相关,递归性与短语类别相关。
- 系统性 :当句子中的一个词被同一词汇类别的另一个词替换时,句子仍然有效。这种属性使得语法可以用词汇类别来描述,减少了类别的数量,简化了规则。系统性还能确保从一个句子中可以生成无限数量的新句子。
- 递归性 :语法可以通过一组重写规则来建模,其中某些短语类别直接或间接地由自身定义。通过递归规则,我们可以从有限的规则和词汇中获得无限数量的不同且有效的句子。
在语言生成中,系统性和递归性很容易实现,但在语言学习或语法推断中,它们带来了挑战。接下来,我们将分别探讨递归性和系统性在循环神经网络中的表现。
递归性
在这部分,我们关注简单
超级会员免费看
订阅专栏 解锁全文
4847

被折叠的 条评论
为什么被折叠?



