自然语言形式化与NooJ平台的高效应用
1. 语言、语法与机器的关系
在自然语言处理领域,不同类型的语法与机器之间存在着紧密的对应关系。上下文相关语法对应线性有界自动机(LBA),无限制语法对应图灵机(TM)。具备处理无限制语法能力的机器,也能够处理上下文相关语法;能处理上下文相关语法的机器,也能处理上下文无关语法;而能处理上下文无关语法的机器,则可以处理正则语法。
从计算效率的角度来看,有限状态自动机(FSA)比下推自动机(PDA)更高效,PDA比LBA更高效,LBA比图灵机更高效。因此,通常使用正则语法来描述适合的语言现象,而使用更强大的语法来描述正则语法无法描述的语言现象。
2. 语言形式化工具
传统的生成语法虽然在数学上分类优雅,且用于证明与语言、可计算性和复杂性相关的重要结果,但并不适合语言描述项目,因为它们很快就会变得难以理解,甚至描述简单的语言现象都变得不可能。
自20世纪50年代以来,为了编写更适合语言学的语法,人们创造了数十种符号,这些符号构成了语言形式化工具。常见的形式化工具与乔姆斯基 - 舒滕贝格层级相对应:
| 语法类型 | 对应形式化工具 |
| ---- | ---- |
| 正则语法 | 施乐有限状态工具(XFST) |
| 上下文无关语法 | 巴科斯 - 诺尔范式(BNR)、另一个编译器编译器(YACC)、广义短语结构语法(GPSG) |
| 上下文相关语法 | 词汇功能语法(LFG) |
| 无限制语法 | 中心驱动短语结构语法(HPSG) |
一般来说,形式化工具在层级中的位置越高,对应的机器处理速度就越慢。因此,一些研究
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



