自然语言形式化与NooJ平台的多面优势
一、语法与机器的对应关系
在自然语言处理中,不同类型的语法与不同的自动机存在对应关系。上下文相关语法对应线性有界自动机(LBA),无限制语法对应图灵机(TM)。并且,能够处理无限制语法的机器也能处理上下文相关语法,能处理上下文相关语法的机器可处理上下文无关语法,能处理上下文无关语法的机器则能处理正则语法。
从计算效率来看,有限状态自动机(FSA)比下推自动机(PDA)更高效,PDA比LBA更高效,LBA比图灵机更高效。所以,通常使用正则语法来描述适合它的语言现象,而用更强大的语法描述正则语法无法描述的语言现象。
二、语言形式化方法
生成语法是简单的数学对象,其分类优雅,在语言、可计算性和复杂性方面证明了重要结果。但它并不适合语言描述项目,因为很快就会变得难以理解,甚至描述简单的语言现象都变得不可能。
自20世纪50年代以来,为了编写更适合语言学的语法,人们创造了数十种符号,这些符号构成了语言形式化方法。常见的形式化方法与乔姆斯基 - 舒滕贝格层级大致对应:
| 语法类型 | 对应形式化方法 |
| ---- | ---- |
| 正则语法 | 施乐有限状态工具(XFST) |
| 上下文无关语法 | 巴科斯 - 诺尔范式(BNR)、另一个编译器编译器(YACC)、广义短语结构语法(GPSG) |
| 上下文相关语法 | 词汇功能语法(LFG) |
| 无限制语法 | 中心驱动短语结构语法(HPSG) |
一般来说,形式化方法层级越高,对应的机器处理速度越慢。因此,一些研究人员试图在能力和效率之间找到“良好折衷”,从而产
超级会员免费看
订阅专栏 解锁全文
18

被折叠的 条评论
为什么被折叠?



