特征工程与自然语言处理算法中的解析技术
1. 概率化的词汇语法规则
在自然语言处理里,我们能看到带有概率的词汇语法规则。例如,有一些NP规则,其概率分布具有特定规律。这些规则的概率总和为1,像某些NP规则的概率分别为0.1、0.2和0.7,相加就是1.0。而且,NP很可能进一步被重写为名词,因为其概率达到了0.7。同时,句子起始的第一条规则值为1.0,这是由于首先发生了某个特定事件。另外,为了让语法的歧义性降低,我们移除了空字符串规则。
2. 计算树的概率
计算树的概率相对简单,只需要将词汇和语法规则的概率值相乘,就能得到树的概率。下面通过一个例子来详细说明:
- 句子为“people fish tank with rods”,我们有两棵对应的解析树。
- 对于图5.12中的解析树,从树的顶部开始扫描,字符串起始点为S(解析树的最顶层节点),这里介词修饰动词。其概率计算为:
- (P(t1) = 1.0 * 0.7 * 0.4 * 0.5 * 0.6 * 0.7 * 1.0 * 0.2 * 1.0 * 0.7 * 0.1 = 0.0008232)
- 对于图5.13中的解析树,介词修饰名词,计算得到其概率值为0.00024696。
3. 计算字符串的概率
计算字符串的概率比计算树的概率更复杂。要计算一个字符串的概率,需要考虑所有能生成该字符串的可能树结构。具体步骤如下:
- 先找出所有包含该字符串的树。
- 计算每棵树的概率。
- 将这些树的概率相加,得到字符串的最终概率。
还是以之前的两棵树为例,计算字符串的概率:
- (P(S)
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



