概率句法分析:原理、应用与优化
1. 句法分析概述
句法分析可以看作是一种对句子结构进行高层次单元识别的实践,其目的是压缩句子描述。为了捕捉不同句子中语块的规律性,我们可以学习一种语法来解释所发现语块的结构,这就是语法归纳问题。不过,语法归纳技术对于有限状态语言的处理相对成熟,但对于处理人类语言复杂性所需规模的上下文无关或更复杂的语言,归纳工作则十分困难。
虽然对文本语料库进行某种结构归纳并不难,任何生成语块的算法(如识别常见子序列)都会产生句子的某种表示,可将其解释为短语结构树。但大多数情况下,这些表示与语言学和自然语言处理中通常提出的短语结构相去甚远。
在构建模型之前,我们需要明确期望模型找到的结构。这意味着我们应先确定对解析后句子的用途,可能的目标包括:将句法结构作为语义解释的第一步;在信息检索系统中检测短语块以进行索引;构建一个性能优于 n - 元语法模型的概率句法分析器作为语言模型。为实现这些目标,我们应利用所有可用的先验信息来构建句法分析器。
2. 概率在句法分析中的应用
2.1 句法分析用于消歧
在句法分析器中,概率的应用主要有以下三种方式:
- 确定句子 :将句法分析器作为词格上的语言模型,以确定词格中哪条路径上的单词序列概率最高。在语音识别等应用中,实际输入句子不确定,通常用词格表示各种假设,句法分析器的任务就是确定说话者可能说的内容。
- 加速句法分析 :利用概率对句法分析器的搜索空间进行排序或剪枝,使分析器能更快找到最佳解析,同时不影响结果质量。
- 选择解析结果 </
超级会员免费看
订阅专栏 解锁全文
4

被折叠的 条评论
为什么被折叠?



