事件抽取
1.事件抽取的任务定义
-
事件抽取是信息抽取中的难点问题
- 事件抽取依赖实体抽取和关系抽取
- 相较于实体抽取和关系抽取,事件抽取难度更大
实体抽取:1992年10月3日,奥巴马,米歇尔,三一联合基督教堂
关系抽取:夫妻关系:奥巴马,米歇尔
事件抽取:事件类型:结婚事件,配偶:奥巴马,配偶:米歇尔,事件:1992年10月3日,地点:三一联合基督教堂
-
事件的定义:事件起源于认知科学,常常在哲学、语言学、计算机科学等领域被广泛讨论。在不同的领域,针对不同的应用,不同的人对事件有不同的描述。
-
事件是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。
- 不同的动作或者状态的改变代表不同类型的事件
- 同一个类型的事件中不同的元素代表了不同的事件实例
- 同一个类型的事件中不同粒度的元素代表不同粒度的事件实例
-
事件抽取的定义:从自然语言文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来,如什么人,什么时间,在什么地方,做了什么事。
-
事件抽取相关的术语:事件描述(Event mention),事件触发词(Event Trigger),事件元素(Event argument),元素角色(Argument role)
2. 事件抽取评测及语料资源
3. 事件抽取的典型方法
3.1 基于模式匹配的方法
- 平面模式主要基于词袋等字符串特征构成模式
- 结构模式更多地考虑了句子的结构信息,融入句法分析特征
- 缺点:领域相关,可扩展性差;需要大量的人工标注,耗时耗力
3.2 基于机器学习的方法
-
目前主要采用统计机器学习的方法,将事件实例转换成高维空间中的特