自然语言的语法形式主义
上下文无关文法(CFG)在处理自然语言现象时存在一定的局限性,因此有必要研究其扩展形式。本文将介绍几种不同的语法形式主义,包括树邻接文法(TAG)、线性索引文法(LIG)、线性上下文无关重写系统(LCFRS)、多组件树邻接文法(MCTAG)、多上下文无关文法(MCFG)和范围连接文法(RCG),并探讨它们如何扩展 CFG、如何建模自然语言现象以及它们之间的关系。
1. 树邻接文法(TAG)
树邻接文法(TAG)是一种树重写形式主义,它从树替换文法发展而来,允许用新树替换内部节点。
1.1 形式主义
TAG 由一组有限的句法树(基本树)组成。通过替换(用新树替换叶子节点)和邻接(用新树替换内部节点)操作,可以从基本树推导出更大的树。在邻接操作中,被邻接的树有一个标记为足节点(用星号标记)的叶子节点,这样的树称为辅助树。当将辅助树邻接到节点 n 时,原树中以 n 为根的子树会附加到辅助树的足节点上。非辅助基本树称为初始树,推导从初始树开始,最终推导树的所有叶子节点都必须有终结符标签。
例如,对于句子 “John always laughs”,“John” 的树替换主语 NP 槽,“always” 的辅助树邻接到 “laughs” 树的 VP 节点,如下图所示:
S
NP VP
John ADV VP
always V
laughs
内部节点可以标记为 OA(强制邻接)和 NA(无邻接,即不允许邻接)。对于非 NA 节点,可以指定可以邻接到该节点的辅助树集合。
超级会员免费看
订阅专栏 解锁全文
1103

被折叠的 条评论
为什么被折叠?



