特征工程与自然语言处理算法:解析技术全解析
1. 概率与语法规则
在自然语言处理中,我们常常会遇到带有概率的词汇语法规则。例如,某些规则的概率分布具有一定的特点。假设有一组NP规则,其概率总和为1(如0.1 + 0.2 + 0.7 = 1.0),这表明NP进一步被重写为名词的概率为0.7,是比较可能发生的情况。同时,为了使语法规则更加明确,我们会移除空字符串规则,减少语法的歧义性。
接下来,我们要探讨如何利用这些概率值,这就涉及到计算树和字符串的概率。
2. 计算树的概率
计算树的概率相对简单,只需将词汇和语法规则的概率值相乘即可。以下是一个具体的例子,我们以句子“people fish tank with rods”为例,有两棵解析树,分别如图5.12和图5.13所示。
对于图5.12中的解析树,从树的顶部开始扫描,字符串起始点为S(解析树的最顶层节点),这里介词修饰动词,其概率计算如下:
P(t1) = 1.0 * 0.7 * 0.4 * 0.5 * 0.6 * 0.7 * 1.0 * 0.2 * 1.0 * 0.7 * 0.1 = 0.0008232
同理,对于图5.13中的解析树,介词修饰名词,计算得到其概率为0.00024696。
3. 计算字符串的概率
计算字符串的概率比计算树的概率更为复杂。我们需要考虑所有可能生成该字符串的树结构,将这些树的概率相加,从而得到字符串的最终概率。
继续以图5.12和图5.13的解析树为例,字符串的概率计算如下:
P(S) =
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



