《计算机理论论文融合语义和句型信息的中文句法分析方法研究与实现》由会员分享,可在线阅读,更多相关《计算机理论论文融合语义和句型信息的中文句法分析方法研究与实现(2页珍藏版)》请在人人文库网上搜索。
1、融合语义和句型信息的中文句法分析方法研究与实现 融合语义和句型信息的中文句法分析方法研究与实现 The Study and Realization of Chinese Parsing with Semantic and Sentence Pattern Information【中文摘要】 句法分析是自然语言处理领域一项重要的基础性研究工作。它能够发现自然语言中内在的语法结构,是进行高层信息处理和自然语言理解的基石。其中,基于上下文无关文法(PCFG)的句法分析方法一直是该领域研究的主流。本文在PCFG模型的基础上,提出了一种引入中文语义和句型信息的方法,解决了PCFG模型缺少语义信息及文法之。
2、缺少全局约束的问题,改进了中文句法分析器的性能。首先,在句法分析中融入语义信息。尝试在非词汇化句法分析方法中融入语义信息,利用语义信息帮助句法分析进行消歧。加入语义信息后,句法分析器的性能在宾大中文树库(CTB)标划分准集上F值提高了1.37%达到了81.63%1。该方法除了能解决中文里常见的一些歧义外,还能从句法分析的结果中获得带有句法约束的语义信息。其次,在句法分析中融入句型信息。根据句法树和文法之间共现的关系,对句型信息进行建模。利用这种句型信息对句法分析的结果进行约束,纠正了基线系统在清华树库上一些句型标记的错误,F值提高了0.17%达到了86.57%1。【英文摘要】 Parsing 。
3、is one of the most fundamental research works in Natural Language Processing (NLP). It can reveal the inner structures of natural language. And high-accuracy parsing can benefit upper level applications.In this paper, we focus on probabilistic context-free grammar (PCFG) model and propose a method t。
4、o incorporate Chinese semantic and sentence pattern information in PCFG to solve the problem that PCFG model lacks semantic information and the global restrictions among grammar rules.First, we try to incorporate semantic information into unlexical parsing method. On one hand, semantic information c。
5、an alleviate the disambiguious in parsing and the F-score in standard Penn Chinese Tree Bank (CTB) increases 1.37% and achieves 81.63%2. On the other hand, inferring syntax and semantic at the same time can also bring some semantic information.Second, we try to incorporate sentence pattern informati。
6、on into PCFG model. The sentence pattern information is acquired from the co-occurrent information between trees and grammar rules. And we use this information in parsing for disambiguation which corrects some mistakes of tags which represent sentence pattern in Tsinghua Tree Bank. And the F-score a。
7、cquired in Tsinghua Tree bank increases 0.17% and reaches 86.57%2 【中文关键词】 句法分析; 概率上下文无关文法; 语义; 句型; 概率潜语义分析(PLSA) 【英文关键词】 Parsing; Probabilistic Context Free Grammar; Semantic; Sentence Pattern; Probabilistic Latent Semantic Analysis (PLSA) 【毕业论文目录】摘要 2-3 ABSTRACT 3 第一章 序言 8-13 1.1 研究的问题 8-9 1.2 问题难点。
8、 9-10 1.3 研究历史与现状 10-11 1.4 研究意义及应用前景 11 1.5 本文的研究思路和主要工作 11-12 1.6 各章节安排 12-13 第二章 统计句法分析系统概述 13-25 2.1 文法的建模 13-17 2.1.1 乔姆斯基层级体系 13-14 2.1.2 人类语言的特点 14-15 2.1.3 概率上下文无关文法 15-17 2.2 文法概率的获得(训练) 17-19 2.2.1 有监督的训练方法 17-18 2.2.2 无监督的训练方法 18-19 2.3 句法分析(解码) 19-21 2.4 句法分析评价标准 21-22 2.5 PCFG 基本模型的改进 2。
9、2-25 2.5.1 引入词汇化信息的 PCFG 22-24 2.5.2 非词汇化 PCFG 模型 24-25 第三章 融合语义信息的中文句法分析 25-36 3.1 语义 25 3.2 句法和语义的关系 25-26 3.3 中文语义信息对句法分析的影响 26-27 3.4 先前的工作 27-28 3.5 本文的思路 28-29 3.6 实现方法 29-30 3.7 实验 30-35 3.7.1 语料 30 3.7.2 基线系统及评测标准 30 3.7.3 实验结果及分析 30-35 3.8 小结 35-36 第四章 融合句型信息的中文句法分析 36-47 4.1 句型 36 4.2 概率潜语义分析模型 36-39 4.2.1 潜语义分析方法 37 4.2.2 PLSA 模型介绍 37-38 4.2.3 PLSA 模型训练 38-39 4.3 句型信息建模 39-40 4.4 句型信息的融合 40-42 4.5 实验及分析 42-46 4.5.1 语料 42 4.5.2 基线系统 42-43 4.5.3 融入句型信息的句法分析实验 43-46 4.6 小结 46-47 第五章 工作总结和展望 47-49 5.1 工作总结 47-48 5.2 未来工作展望 48-49 参考文献 49-52 致谢 52-53。