多组件上下文无关文法(MCFG)与范围连接文法(RCG)解析探究
1. MCFG与LCFRS解析的过滤器
在解析多组件上下文无关文法(MCFG)及其等价的线性上下文无关重写系统(LCFRS)和简单范围连接文法(SRCG)时,过滤器起着重要作用,它可以减少图表中项目的数量。以下是两种特别适用于自然语言处理的过滤器。
1.1 剩余输入长度过滤器
对于无ε文法,每个变量必须至少覆盖一个输入符号。因此,当剩余输入符号数量为i时,预测左侧变量或终结符数量超过i的子句是不合理的,因为无法用剩余输入实例化该子句。这一过滤思想可追溯到1965年。
一个活跃项目 [A(φ) → A1(φ1) ... Am(φm), pos, ⟨i, j⟩, ρ] 满足长度过滤器的条件是:
[
(n - pos) \geq (|\varphi(i)| - j) + \sum_{k = i + 1}^{\dim(A)} |\varphi(k)|
]
其中, n 是输入字符串的长度, pos 是当前位置。
该过滤器应用于预测、恢复、暂停和完成操作的结果。在处理大型文法时,此条件能避免大量不必要的项目。例如,从具有交叉分支的树库(如Tiger和Negra)中提取的简单RCG是无ε的,因此可以应用剩余输入长度过滤器。
1.2 终结符过滤器
此过滤器用于检查预测部分中所需预终结符的存在情况。假设预终结符被视为终结符,该过滤器会检查子句预测部分(即点右侧部分)中的所有终结符是否存在于剩余输入中,并且终结符出现的顺
超级会员免费看
订阅专栏 解锁全文
7

被折叠的 条评论
为什么被折叠?



