概率句法分析:概念、方法与模型对比
1. 树概率与推导概率
在概率上下文无关文法(PCFG)框架中,计算树的概率可以通过将树中每个局部结构的概率相乘得到,而局部结构的概率由生成它的规则决定。树可以看作是一个分支过程的紧凑记录,在每个节点处进行选择,且仅依赖于该节点的标签。
在生成式模型中,通常从起始符号开始,通过一系列自上而下的重写操作生成句子,直到所有叶节点都是终结符(即单词)。例如,一个句子的推导过程可能如下:
NP VP
N VP
astronomers VP
astronomers V NP
astronomers saw NP
astronomers saw N
astronomers saw telescopes
一般来说,一个给定的解析树可能有多个推导。为了估计树的概率,需要计算所有可能推导的概率之和:
[P(t)=\sum_{d \text{ 是 } t \text{ 的推导}} P(d)]
然而,在PCFG的情况下,推导顺序的选择对最终概率没有影响。因此,可以为每个树选择一个唯一的推导,即规范推导。例如,图中所示的最左推导,即每次扩展最左边的非终结符,就可以作为规范推导。当可以选择规范推导时,树的概率可以表示为:
[P(t)=P(d)]
其中 (d) 是 (t) 的规范推导。
计算推导的概率时,使用链式法则,为推导中的每个步骤分配一个概率,该概率依赖于前面的步骤。对于标准的重写文法,推导概率的计算公式如下:
[P(d)=\prod_{i = 1}^{n} P(\alpha_i \to \b
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



