计算机句法分析的研究现状,汉语句法分析的重排序技术研究-计算机科学与技术专业论文.docx...

Classified Index: TP391.4 U.D.C.: 681.39

Dissertation for the Master Degree in Engineering

RESEARCH ON RERANKING TECHNOLOGY FOR CHINESE SYNTACTIC PARSING

Candidate:

Cheng Yong

Supervisor:

Prof. Wang Xiaolong

Academic Degree Applied for:

Master of Engineering

Specialty:

Computer Science and Technology

Affiliation:

School of Computer Science and

Technology

Date of Defence:

June, 2012

Degree-Conferring-Institution:

Harbin Institute of Technology

哈尔滨工业大学工学硕士学位论文

哈尔滨工业大学工学硕士学位论文

摘要

近年来,随着网络的发展,现代人对信息沟通和处理的需求越来越迫切, 这使得自然语言处理以及相关的应用领域得到了迅速的发展。而由于句法分析 在自然语言处理研究中的关键地位及其在各种应用上的光明前景,本文对汉语 的句法分析进行了深入的探讨和研究,并且由于重排序方法在提高句法分析性 能上的有效性,因此本文把对重排序方法的研究作为本文的主要研究内容。具 体的工作如下:

首先,本文对当前主流的句法分析模型进行了介绍,并且在宾州中文树库 CTB5.0 上进行了实验,测试比较了不同句法分析模型的性能。根据对实验结果 的分析本文探讨了不同构建模型的方法以及不同模型对句法分析的影响,而这 些影响主要体现在对信息的融合,对训练语料的要求,以及对最终句法分析的 性能和效率上。

其次,本文应用了不同的句法分析模型作为初始模型来进行句法分析的重

排序实验, 其中初始模型分别采用了 概率上下文无关文法( PCFG)模型, Stanford-1 模型以及 Berkeley 模型,而对于影响重排序性能的两个重要因素: 特征表示和参数训练,本文进行了如下的设置,特征表示方面,本文主要参考 了 Collins 在他的文章中给出的特征集并进行了稍微的改动,而参数训练方面则 采用了最大熵方法作为训练方法。另外本文进一步探讨了不同类型特征对实验 结果的影响,分析结果表明重排序模型中的特征选择应考虑初始模型的影响。

最后,在对传统重排序方法研究的基础上,本文发现现有的重排序方法对 于 N-best 候选树中所蕴含的信息并没有充分利用,因此针对性地进行了改进并 通过相应实验进行了验证。具体的说,在传统的重排序方法中,常常将重排序 映射为一个分类问题,而指导训练分类参数的代价函数常常设置为使 N-best 候

选句法分析树中的排名第一的句法分析树和其他句法分析树之间的边界距离

(Margin)最大。但是本文发现,在实际情况中,句法分析树之间的顺序是根 据该句法树与标准树的相似度值来排序的,也就是说,不同的句法分析树之间 没有“质”的差异,只有“量”的差异,而在传统的方法中却常常忽视这一信 息。针对此问题,本文提出了两种改进模型:基于相对距离的分割模型和基于 多类融合的模型。并且利用这两种模型在 PCFG 模型作为初始模型的基础上进 行了实验。实验结果表明,改进模型使得句法分析的性能有了进一步的提高, 在用 PCFG 作为初始模型的基础上,改进模型比传统的重排序技术又提高了 0.9 个百分点左右。

I -

另外,本文实现了一个多种显示模式的句法分析树可视化系统,该系统提 供了三种主要的显示模式来对句法分析树进行展示,分别是“短语模式”,“依 存模式”,“骨架模式”。除了对句法分析树给出不同结构的显示外,该系统还可 以为重排序中的特征选择提供相应的帮助。

关键词:汉语句法分析;PCFG;重排序;可视化

II -

-

- PAGE IV -

Abstract

In recent years, with the development of networks, the demand for information communication and processing is increasingly urgent, which makes the study of natural language processing (NLP) and related applications have been developed rapidly. And because the parsing study’s key position in

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值