自然语言形式化:NooJ平台的多面解决方案
在自然语言处理领域,形式化语言的描述是一项至关重要且极具挑战的任务。不同类型的语法和自动机在处理自然语言时各有优劣,而NooJ平台提供了一种独特的解决方案。
语法与自动机的对应关系
不同类型的语法与特定的自动机存在对应关系,具体如下:
- 上下文相关语法 ⇔ 线性有界自动机(LBA)
- 无限制语法 ⇔ 图灵机(TM)
从处理能力上看,能够处理无限制语法的机器也能处理上下文相关语法,能处理上下文相关语法的机器能处理上下文无关语法,能处理上下文无关语法的机器能处理正则语法。从计算效率角度,有限状态自动机(FSA)比下推自动机(PDA)高效,PDA比LBA高效,LBA比图灵机高效。
在实际应用中,通常使用正则语法来描述适合的语言现象,而使用更强大的语法来描述正则语法无法描述的现象。从语言学角度看,关键问题不是确定描述所有自然语言现象所需的语法类型(无限制语法理论上足够),而是哪种语法最适合描述哪种语言现象。
现有语言形式化方法的问题
自20世纪50年代以来,为了编写更适合语言学的语法,人们创造了许多符号,形成了各种语言形式化方法。这些方法大致与乔姆斯基 - 舒滕贝格层级相对应:
| 语法类型 | 对应形式化方法 |
| ---- | ---- |
| 正则语法 | 施乐有限状态工具(XFST) |
| 上下文无关语法 | 巴科斯 - 诺尔形式(BNR)、另一个编译器编译器(YACC)、广义短语结构语法(GPSG) |
| 上下文相关语法 | 词汇功能语法(LFG) |
| 无限制语法 | 中心驱动短
超级会员免费看
订阅专栏 解锁全文
11

被折叠的 条评论
为什么被折叠?



