10、特征工程与自然语言处理算法中的解析技术

特征工程与自然语言处理算法中的解析技术

1. 概率化的词汇语法规则

在自然语言处理里,我们能看到带有概率的词汇语法规则。例如,有一些NP规则,其概率分布具有特定规律。这些规则的概率总和为1,像某些NP规则的概率分别为0.1、0.2和0.7,相加就是1.0。而且,NP很可能进一步被重写为名词,因为其概率达到了0.7。同时,句子起始的第一条规则值为1.0,这是由于首先发生了某个特定事件。另外,为了让语法的歧义性降低,我们移除了空字符串规则。

2. 计算树的概率

计算树的概率相对简单,只需要将词汇和语法规则的概率值相乘,就能得到树的概率。下面通过一个例子来详细说明:
- 句子为“people fish tank with rods”,我们有两棵对应的解析树。
- 对于图5.12中的解析树,从树的顶部开始扫描,字符串起始点为S(解析树的最顶层节点),这里介词修饰动词。其概率计算为:
- (P(t1) = 1.0 * 0.7 * 0.4 * 0.5 * 0.6 * 0.7 * 1.0 * 0.2 * 1.0 * 0.7 * 0.1 = 0.0008232)
- 对于图5.13中的解析树,介词修饰名词,计算得到其概率值为0.00024696。

3. 计算字符串的概率

计算字符串的概率比计算树的概率更复杂。要计算一个字符串的概率,需要考虑所有能生成该字符串的可能树结构。具体步骤如下:
- 先找出所有包含该字符串的树。
- 计算每棵树的概率。
- 将这些树的概率相加,得到字符串的最终概率。

还是以之前的两棵树为例,计算字符串的概率:
- (P(S)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值