自然语言处理总复习(七)—— 概率上下文无关文法

一、背景介绍

(一)问题提出

自然语言是一种非线性的符号序列,句子结构的表现为复杂的嵌套性。
N-gram 和 HMM 模型只能处理线性序列,分析过程中就会面临一些问题。

(二)上下文无关文法(CFG)

在这里插入图片描述

二、概率上下文无关文法(PCFG)

(一)定义

在这里插入图片描述

(二)符号定义

在这里插入图片描述

(三)应用举例

1. 举例

在这里插入图片描述
在这里插入图片描述

2. 规则的概率估计

以上计算过程中,规则的概率计算方法如下:
前提: 有一个树库,对语料库中的每个句子都正确标记了句法分析树,称之为树库。
(从规模和可读性上来讲,应用最广泛的树库是Penn(滨州)树库)
在这里插入图片描述

Penn树库

在这里插入图片描述
在这里插入图片描述

(四)PCFG的基本问题

1. 给定一个语法,如何计算一个句子的概率? P ( w 1 m ∣ G ) P(w_{1m}|G) P(w1mG)

(1)相关定义

外部概率(outside probability):
对应HMM中的前向变量。 α j ( p , q ) \alpha_j(p, q) αj(p,q)
内部概率(inside probability):
对应HMM中的后向变量。 β j ( p , q ) \beta_j(p, q) βj(p,q)
在这里插入图片描述

(2)利用内部概率计算句子概率
a)内部算法 —— 基于内部概率的动态规划算法
  • 定义

在这里插入图片描述
在这里插入图片描述

  • 推导
    在这里插入图片描述
    在这里插入图片描述
b)内部算法 —— 举例

在这里插入图片描述

(3)利用外部概率计算句子概率

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

举例:
在这里插入图片描述

2. 已知语法,如何计算一个句子最可能的分析树 P ( t ∣ w 1 m , G ) P(t|w_{1m},G) P(tw1m,G)

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

句法分析结果的评估

在这里插入图片描述
举例:
在这里插入图片描述
在这里插入图片描述

3. 已知一个句子,如何设定语法的规则概率,才能使该句子的概率最大? arg ⁡ max ⁡ G P ( w 1 m ∣ G ) \mathop{\arg\max}\limits_{G} P(w_{1m}|G) GargmaxP(w1mG)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(五)PCFG的问题及解决方法

在这里插入图片描述

PCFG独立性假设的弱化

  • 人们在实际分析句子的时候利用了各种信息源,但PCFG的独立性假设认为这些因素都与句法分析树的概率无关。实际上,这些信息源对于消除分析树的歧义是有用的。
  • 要构造一个优于PCFG的统计句法分析器,至少需要借助于这些信息源中的一部分。
1. 方案一:词汇化

在这里插入图片描述
在这里插入图片描述

2. 方案二:结构化上下文的概率依存

在这里插入图片描述

(六)其他句法分析方法

1. 依存语法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2. 其他句法分析方法

在这里插入图片描述

3. 一些可免费使用的句法分析器

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Victayria

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值