《中文事件抽取关键技术研究》论文赏析

摘要部分
本文主要研究中文事件抽取技术,这其中主要包括三个方面:
1、时间表达式识别
提出一种基于词典特征优化和依存关系的中文时间表达
式识别方法。
2、事件检测与分类
提出了一种基于依存句法分析与分类器融合的事件触
发词抽取方法。
3、事件论元角色抽取
针对传统基于机器学习的方法通常将句法分析信息转化为平面特征,并不能全面利用句法分析信息的问题,提出了一种基于卷积树核的事件论元角色抽取方法。

我们知道信息抽取一共包括五部分内容:
实体识别,事件抽取,实体和事件关系抽取,代词指代消解,模板元素抽取

(积累)中文事件抽取技术面临的主要问题包括:

1、前置基础技术研究不够完善,精度有待提高,如命名实体识别、浅层语义分析等;
2、仅利用句子基本语言特征及浅层语义知识,没能进行深层语义挖掘
3、所有特征放于同一平面之内,没有层次结构,没有评估不同特征的重要程度。面对以上问题,分类器融合技术及核方法在一定程度上可以缓解后两个问题。

1、时间表达式的识别方法通常有两类:基于规则的方法和基于机器学习的方法。

‘’’
基于规则的现存技术:

基于依存分析和错误驱动的中文时间表达式识别方法、“时间基元”、对时态元素进行刻画的思想,并由此采用正则表达式与 Trie 树结构相结合的方式构建时间短语识别树,进行中文时间表达式的识别与分类、基于层叠有限状态自动机的 C-TERN算法,用于中文军事文本中时间表达式的识别与规范化。

基于机器学习的现存技术:是将时间表达式识别看作分类问题。

时间表达式识别可转化为序列标注问题、机器学习的方法运用于网页发布时间的识别、将时间表达式分为日期型短语和事件型短语,运用条件随机场模型分别识别两种类型的中文时间表达式、在表达式识别过程中引入语义角色特征来提高中文时间表达式识别效果、利用条件随机场模型,基于清华汉语树库构建时间表达式知识来完成中文时间表达式识别。

‘’’

 2、事件抽取研究现状分析:

事件抽取主要分为事件检测与分类和事件论元角色抽取两个环节。归纳起来主要分为基于模板匹配的方法和基于机器学习的方法。

ps:

事件触发词(Trigger)是能够触动事件发生的词,体现着事件最重要的特征,并决定着事件的类型

ps:

WordNet是由Princeton
大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。
 它是一个覆盖范围宽广的英语词汇语义网。名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接。
 WordNet包含描述概念含义,一义多词,一词多义,类别归属,近义,反义等问题,访问以下网页,可使用wordnet的基本功能
http://wordnetweb.princeton.edu/perl/webwn

本文着重对句法分析信息在事件抽取中的应用进行了探讨。

本文主要研究中文事件抽取相关技术,重点对时间表达式识别、事件检测与分类和事 件论元角色抽取等三个方面进行研究。

事件检测与分类
1、单一触发词抽取
2、抽取触发词-实体描述对
3、管道模型和联合模型下将单一触发词的抽取结果与触发词-实体描述对的抽取结果相融合来最终完成事件触发词抽取,从而实现事件的检测与分类。

在这里插入图片描述

基于词典特征优化和依存关系的中文时间表达式识别

时间表达式识别问题即是确定蕴含在文本中的时间表达式的边界。
基本流程:
(1)预处理:对语料中文分词,词性标注,句法分析等,并且将训练语料进行BIO标注;
(2)训练:从预处理后的预料中提取特征,生成训练文件和特征模板文件,将生成的文件通过 CRF 模型训练成模型文件。
(3)测试:将 CRF 模型文件用于测试语料,进行 BIO 序列标注,完成时间表达式识别。

  • 难点:特征提取

    这里除了之前研究者用的两类常用特征:基本特征和词典特征,还对词典特征进行了优化并且增加了第三类特征即依存特征,来提高时间表达式识别的性能。

1、时间单位词典(38个):’年‘,’载‘,’号‘…
2、时间词词典(547个):’昨天‘,’春天‘,’中午‘,’一会儿‘,’当代‘…
时间词词典中的词单独可表示一个时间意义,而时间单位词典中的
时间单位经常需要与一个数词相结合才能表示一个完整的时间意义。

依存特征的设定:参照原文
对语料中词进行特征提取后,将每个提取出的特征作为该词特征向量中的一维来构成该词的特征向量。

基于依存句法分析与分类器融合的事件触发词抽取

原理:分别对应于事件的检测与分类。其中,事件检测通过判定句子中是否含有事件触发词来实现,事件的类型则是通过识别事件触发词类型来判断。

流程:
触发词抽取有管道和联合两种模型。
触发词检测的三个步骤:
1、设立一个BV集合(动词的六种主要结构),将训练语料中的所有是动词的单字触发词加入集合。
2、将训练语料中的所有触发词拆分为单字,把为动词的单字触发词加入集合。
3、对于测试语料中的所有单词,如果它包含 BV 集合中的某个 BV,则判断他为候选触发词;
然后采用基于启发式的过滤方法去除错误的候选触发词,最后还要借用机器学习的方法进一步过滤错误的候选触发词。

基于卷积树核的事件论元角色抽取方法原理分析
基于机器学习的事件论元角色抽取即是将论元角色抽取看作是一个分类问题,其形式化描述为:对于一个事件描述,己知其事件类型和该类事件所对应的角色类别集合R{ r1,r2 ,…,rn , None},(None 表示非论元角色的 etv(实体,时间,数值) 的类别),事件描述包含的 etv 的集合为E={etv1 , etv2 ,…, etvn},为每个 etv 标记相应的类别,建立集合E 到集合 R 的映射。

关键技术流程:
1、语料进行预处理;
2、通过候选事件论元角色和事件触发词在句法分析树中的关系构造基本树结构,裁剪算法去除树中的冗余信息;
3、将平面特征构成的基本核与句法分析树构成的卷积树核共同构成复合核,并将其用于事件论元角色抽取对应的支持向量机分类器,实现抽取。


**> ps:依存语法几条定理:** 
> 1、一个句子中存在一个成分称之为根(root),这个成分不依赖于其它成分。
> 
> 2、其它成分直接依存于某一成分;
> 
> 3、任何一个成分都不能依存与两个或两个以上的成分;
> 
> 4、如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存于A和B之间的某一成分;
> 
> 5、中心成分左右两面的其它成分相互不发生关系。

特征提取:
一、平面特征:
本文选取了23个特征作为分类器特征,本章采用不包含最短路径特征在内的21个特征作为平面特征。具体见原文

二、结构特征:
(1)构造树结构(三种)
(2)树结构的裁剪:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值