超越上下文无关文法的解析:理论与实践
1. 形式文法与自然语言
自 20 世纪 80 年代以来,人们就已认识到上下文无关文法(CFG)不足以描述自然语言中的所有现象。以下是一些体现 CFG 局限性的例子:
- 跨序列依赖 :在荷兰语和瑞士德语中存在跨序列依赖现象。例如荷兰语句子 “… dat Jan Piet de kinderen zag helpen zwemmen”,将动词及其名词参数映射到相同的终端符号后,跨序列依赖会产生如 “abcabc” 这样的字符串,迭代后形成类似复制语言 “{ww | w ∈{a, b, c}+}” 的依赖模式。
- 无界乱序现象 :在德语和韩语等语言中存在无界乱序现象。以德语句子 “… dass des Verbrechens der Detektiv den Verd¨achtigen dem Klienten zu ¨uberf¨uhren versprochen hat” 为例,动词前的名词短语的所有排列都是合乎语法的,这会产生 “ababab”、“aabbab” 等模式,对应语言 “{π(w′)w | w = a1 . . . an ∈{a, b, . . .}∗, w′ = ak1 1 . . . akn n , 其中 ki 是 ai 的名词参数数量,π 是排列}”。
为了描述自然语言的形式属性,Joshi 在 1985 年引入了 “轻度上下文敏感性” 的概念。一个适合处理自然语言的文法形式主义应满足以下条件:
1. 扩展 CFG :能够处理 CFG 无法描述的现象。
2. 描述有限的
超级会员免费看
订阅专栏 解锁全文
7

被折叠的 条评论
为什么被折叠?



