自然语言处理中的语法形式主义与解析算法综述
1. 不涉及的语法形式主义
在自然语言处理领域,有几种语法形式主义在相关研究中被搁置一旁。
首先是具有高表达能力的形式主义,它们会生成超多项式语言。其中最突出的是词汇功能语法(LFG)和中心驱动短语结构语法(HPSG)。与常见的语法不同,它们遵循不同的传统。常见语法旨在在保证计算可处理性的前提下,尽可能扩展上下文无关文法(CFG)的表达能力,以描述自然语言现象,而LFG和HPSG提供的形式主义过于强大,本身并不能告诉我们关于自然语言类别的信息,只有具体的语法才能刻画自然语言。
其次是向量语法。它的元素是集合,如重写规则集或树邻接文法(TAG)树集。在推导过程中,使用集合中的一个元素时,必须同时使用该集合中的其他元素。根据元素添加方式的不同,会产生多种具有不同属性的形式主义,例如矩阵文法、无序向量文法、树局部和集局部多组件TAG、带支配链接的非局部MCTAG和带支配链接的向量TAG。
最后是范畴语法,如组合范畴语法(CCG)和抽象范畴语法(ACG)。这些语法的定义方式与常见的语法形式主义不同,因为范畴语法是基于演绎的逻辑框架,而常见研究集中在重写语法上,即规则定义已生成结构部分重写方式的语法,它们是CFG的直接扩展。
此外,依存解析也是被搁置的重要话题。一般来说,依存解析是数据驱动而非规则驱动的,与基于规则的符号解析算法采用不同的解析方法。
2. 整体内容概述
整体内容涵盖了多个方面,包括自然语言的语法形式主义、解析的预备知识、不同的语法扩展及其解析算法,以及自动机模型。
2.1 自然语言的语法形式主义
CFG在
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



