【笔记】事件抽取

事件抽取是自然语言处理中的重要任务,涉及从文本中识别事件触发词、类型、论元和角色。它从ACE测评开始发展,涉及实体、触发词、论元和角色识别。常见数据集包括ACE2005、Rich ERE、TAC KBP等,评价指标主要是准确率、召回率和F1值。事件抽取在情报分析、舆情监测等领域有广泛应用,但面临如实体识别错误、领域适应性等问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【笔记】事件抽取

一、概念

参考

1. 什么是事件抽取?

  1. ACE定义:事件抽取式从一段描述文本(一般是句子级的)中抽取一些关键元素,根据ACE的定义,组成事件的元素包括:触发词,事件类型,论元和论元角色;

    D.Ahn首先提出将ACE事件抽取任务分成四个子任务:触发词检测、事件/触发词类型识别、事件论元检测和参数角色识别。我们使用ACE术语来介绍如下事件结构:

    • 「事件触发词」:Trigger, 表示事件发生的核心词,多为动词和特有名词;
    • 「事件类型」:最清楚地表达事件发生的主要词,一般指动词或名词。 ACE2005 定义了8种事件类型和33种子类型。其中,大多数事件抽取均采用33 种事件类型。事件识别是基于词的34 类(33类事件类型+None) 多元分类任务,角色分类是基于词对的36 类(35类角色类型+None) 多元分类任务;
    • 「事件论元」: 事件的参与者,主要由实体、值、时间组成。值是一种非实体的事件参与者,例如工作岗位
    • 「论元角色」: 事件论元在事件中充当的角色。共有35类角色,例如,攻击者 、受害者等。

理解定义:
事件抽取并不是从非结构化文本中抽取未知事件,而是在已经定义好了34类事件后
从文本中寻找事件触发词(event trigger),以匹配事件
并将事先定义好的事件模板中的每个角色(论元角色),找到它对应的实体。

比如 小明 攻击了 小红
通过早就定义好的模板

攻击事件
包括 攻击者 & 被攻击者 & 触发词(攻击,击打,等)

通过 攻击 判定句子中含有攻击事件 :事件匹配
再将 小明 对应到 攻击者
小红 对应到 被攻击者 : 事件论元(event argument)匹配

需要说明的是,事件抽取的定义并不是固定的,根据任务来确定,事件抽取可以认为是狭义上的信息抽取,属于一个综合研究领域; 在舆情监测、文本摘要、自 动问答、事理图谱自动构建等领域有着重要应用 ,事件抽取涉及自然语言处理、机器学习、模式匹配等多个学科,对于相关学科理论的完善和发展起到积极的推进作用。同时,在情报研究工作中事件抽取技术能帮助情报人员从海量信息中快速提取相关事件, 提高了情报研究工作的时效性, 并为开展定量情报分析提供技术支撑。事件抽取在情报研究领域具有广阔的应用前景。

2. ACE测评中事件抽取涉及的几个基本术语及任务是什么?

1、实体(Entity)。属于某个语义类别的对象或对象集合。其中包括:人(PER)、地理政治区域名( GPE)、组织机构(ORG)、地名(LOC)、武器(WEA)、建筑设施(FAC)和交通工具( VEH)。

2、事件触发词(Event Trigger)。表示事件发生的核心词,多为动词或名词。

3、事件论元(Event Argument)。事件的参与者,主要由实体、值、时间组成。值是一种非实体的事件参与者,例如工作岗位( Job-Title)。和实体一样,ACE05也标记出了句子中出现的值和时间。下文中,即将实体、值、时间统称为实体。

4、论元角色(Argument Role)。事件论元在事件中充当的角色。共有35类角色,例如,攻击者( Attacker)、受害者( Victim)等。

其中,我常用的ACE 2005定义了8种事件类型和33种子类型。其中,大多数事件抽取均采用33种事件类型。事件识别是基于词的34类( 33类事件类型+None)多元分类任务,角色分类是基于词对的36类(35类角色类型+None)多元分类任务。这里,参考文献

3. 事件抽取怎么发展的?

从事件抽取的发展历史来看,事件抽取的研究几乎与信息抽取的研究同时开始 。 20世纪七、八十年代 ,耶鲁大学就针对新闻报道如地震 、工人罢工等领域或场景 ,开展有关故事理解的研究, 并根据故事脚本理论建立信息抽取系统,就是针对事件抽取的研究 ,开创了事件抽取研究的先河 。但是真正推进事件抽取研究进一步发展的动力主要是相关的评测会议的推动。

消息理解会议(MessageUnderstandingConference, MUC)对事件抽取这一研究方向的确立和发展起到了巨大的推动作用。 MUC定义的抽取任务的各种规范以及确立的评价体系已经成为事件抽取研究事实上的标准,同时也为事件抽取技术的研究奠定了坚实的基础。 MUC是由美国国防高级研究计划委员会(Defense Advanced Research Projects Agency, DARPA)资助 ,从 1987年开始到 1998年 , 会议共举行了 7届 ,具体的历次会议信息如表 1所示 。当前, 由 MUC 定义的概念、模型和技术规范对整个信息抽取领域起着主导作用, 其主要的评测项目是从新闻报道中提取特定的信息, 填入某种数据库中, 事件抽取 ( Scenario Template, ST) 始终是这一会议的评测项目之一。MUC 会议的很多研究都是探索性的, 对信息抽取领域起到了巨大的推动作用, 并为事件抽取的研究打下了坚实的基础。每一届 MUC 都针对一个特定领域和场景,并且提供

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值