【笔记】事件抽取

最新推荐文章于 2025-03-27 20:53:19 发布

原创最新推荐文章于 2025-03-27 20:53:19 发布 · 1k 阅读

2 ·

CC 4.0 BY-SA版权

面筋专栏收录该内容

11 篇文章

订阅专栏

事件抽取是自然语言处理中的重要任务，涉及从文本中识别事件触发词、类型、论元和角色。它从ACE测评开始发展，涉及实体、触发词、论元和角色识别。常见数据集包括ACE2005、Rich ERE、TAC KBP等，评价指标主要是准确率、召回率和F1值。事件抽取在情报分析、舆情监测等领域有广泛应用，但面临如实体识别错误、领域适应性等问题。

【笔记】事件抽取

一、概念

参考

1. 什么是事件抽取？

ACE定义：事件抽取式从一段描述文本（一般是句子级的）中抽取一些关键元素，根据ACE的定义，组成事件的元素包括：触发词，事件类型，论元和论元角色；

D.Ahn首先提出将ACE事件抽取任务分成四个子任务:触发词检测、事件/触发词类型识别、事件论元检测和参数角色识别。我们使用ACE术语来介绍如下事件结构:
- 「事件触发词」：Trigger, 表示事件发生的核心词，多为动词和特有名词；
- 「事件类型」：最清楚地表达事件发生的主要词，一般指动词或名词。 ACE2005 定义了8种事件类型和33种子类型。其中，大多数事件抽取均采用33 种事件类型。事件识别是基于词的34 类(33类事件类型+None) 多元分类任务，角色分类是基于词对的36 类(35类角色类型+None) 多元分类任务；
- 「事件论元」：事件的参与者，主要由实体、值、时间组成。值是一种非实体的事件参与者，例如工作岗位
- 「论元角色」：事件论元在事件中充当的角色。共有35类角色，例如，攻击者、受害者等。

理解定义：
事件抽取并不是从非结构化文本中抽取未知事件，而是在已经定义好了34类事件后
从文本中寻找事件触发词(event trigger)，以匹配事件
并将事先定义好的事件模板中的每个角色（论元角色），找到它对应的实体。

比如小明攻击了小红
通过早就定义好的模板

攻击事件
包括攻击者 & 被攻击者 & 触发词（攻击,击打，等）

通过攻击判定句子中含有攻击事件：事件匹配
再将小明对应到攻击者
小红对应到被攻击者：事件论元(event argument)匹配

需要说明的是，事件抽取的定义并不是固定的，根据任务来确定，事件抽取可以认为是狭义上的信息抽取，属于一个综合研究领域；在舆情监测、文本摘要、自动问答、事理图谱自动构建等领域有着重要应用，事件抽取涉及自然语言处理、机器学习、模式匹配等多个学科，对于相关学科理论的完善和发展起到积极的推进作用。同时，在情报研究工作中事件抽取技术能帮助情报人员从海量信息中快速提取相关事件，提高了情报研究工作的时效性，并为开展定量情报分析提供技术支撑。事件抽取在情报研究领域具有广阔的应用前景。

2. ACE测评中事件抽取涉及的几个基本术语及任务是什么？

1、实体(Entity)。属于某个语义类别的对象或对象集合。其中包括:人(PER)、地理政治区域名( GPE)、组织机构（ORG)、地名(LOC)、武器(WEA)、建筑设施(FAC)和交通工具( VEH)。

2、事件触发词(Event Trigger)。表示事件发生的核心词,多为动词或名词。

3、事件论元(Event Argument)。事件的参与者,主要由实体、值、时间组成。值是一种非实体的事件参与者,例如工作岗位( Job-Title)。和实体一样,ACE05也标记出了句子中出现的值和时间。下文中,即将实体、值、时间统称为实体。

4、论元角色(Argument Role)。事件论元在事件中充当的角色。共有35类角色,例如,攻击者( Attacker)、受害者( Victim)等。

其中，我常用的ACE 2005定义了8种事件类型和33种子类型。其中,大多数事件抽取均采用33种事件类型。事件识别是基于词的34类( 33类事件类型+None)多元分类任务,角色分类是基于词对的36类(35类角色类型+None)多元分类任务。这里,参考文献

3. 事件抽取怎么发展的？

从事件抽取的发展历史来看,事件抽取的研究几乎与信息抽取的研究同时开始。 20世纪七、八十年代 ,耶鲁大学就针对新闻报道如地震、工人罢工等领域或场景 ,开展有关故事理解的研究, 并根据故事脚本理论建立信息抽取系统,就是针对事件抽取的研究 ,开创了事件抽取研究的先河。但是真正推进事件抽取研究进一步发展的动力主要是相关的评测会议的推动。

消息理解会议(MessageUnderstandingConference, MUC)对事件抽取这一研究方向的确立和发展起到了巨大的推动作用。 MUC定义的抽取任务的各种规范以及确立的评价体系已经成为事件抽取研究事实上的标准,同时也为事件抽取技术的研究奠定了坚实的基础。 MUC是由美国国防高级研究计划委员会(Defense Advanced Research Projects Agency, DARPA)资助 ,从 1987年开始到 1998年 , 会议共举行了 7届 ,具体的历次会议信息如表 1所示。当前，由 MUC 定义的概念、模型和技术规范对整个信息抽取领域起着主导作用，其主要的评测项目是从新闻报道中提取特定的信息，填入某种数据库中，事件抽取 ( Scenario Template， ST) 始终是这一会议的评测项目之一。MUC 会议的很多研究都是探索性的，对信息抽取领域起到了巨大的推动作用，并为事件抽取的研究打下了坚实的基础。每一届 MUC 都针对一个特定领域和场景，并且提供预先定义好的模板 ( Template) 进行填充，填充之后的模板形成了对文本核心事件的整体描述。

在强烈的应用需求下 ,来自美国国家标准技术研究所 (NIST)组织的 ACE评测会议应运而生, 这项评测真正推动了事件抽取研究的发展。从 1999年开始酝酿, 2000年正式开始启动。研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等内容, 即对新闻语料中实体、关系、事件的识别与描述。

与 MUC相比, ACE评测不针对某个具体的领域或场景, 采用基于漏报 (标准答案中有而系统输出中没有)和误报 (标准答案中没有而系统输出中有 )为基础的一套评价体系 , 还对系统跨文档处理 (CrossDocumentProcessing)能力进行评测。这一新的评测会议把事件抽取技术研究引向新的高度。具体的历次会议信息如表 2所示。ACE 会议作为 MUC 会议的延伸，是事件抽取领域最具影响力的评测会议，该会议从 2000 年到 2007 年共举办了 7 届。目前大多数研究都是围绕 ACE 的评测任务开展，它把事件抽取的研究推向一个新的高度。会议研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等内容。ACE 定义的事件属于元事件的范畴，包括事件类别和事件元素的识别。与 MUC 相比， ACE 评测不针对某个具体的领域或场景，也不提供预先定义好的模板，而是强调对文本基本意义或基本概念的刻画，因此所定义的任务显得更为细致和深入。用户指定要检测的事件的类别，系统给出检测文本中这些事件的出现，但最后的输出并未形成对核心事件的整体描述，并且 ACE 同 MUC 一样都是篇章级 ( Document Level) 的事件抽取，不涉及跨文档抽取。

自 2009年 , ACE成为文本分析会议(TextAnalysisConference, TAC)中的一个任务。 TAC主要由 3个评测任务组成 ,主要目的是促进自然语言处理技术发展和相关的应用。

总而言之,从 20世纪七、八十年代开始,事件抽取一直发展到今天 ,已经走过了几十年的研究历程 ,其所取得的进步与上述评测会议的推动密不可分 ,但从评测会议公布的结果来看, 抽取的精度离实用还相差甚远, 在领域扩展性和移植性方面的表现还不能令人满意, 注定今后事件抽取技术的研究还有很长的路要走。

4. 事件抽取存在什么问题？

1）对实体、关系识别、语法分析等相关技术的底层技术研究不够成熟，导致级联错误。事件抽取是在实体和关系识别的基础上发展起来的。它在某种程度上取决于实体、关系识别和文本预处理的效果，但是这些基础技术仍然不够成熟。并且，目前缺乏对子任务输出结果的评估及矫正技术。

2）事件抽取系统的现场可伸缩性和便携性并不理想。例如，有关中文事件抽取的相关研究主要集中在生物医学、微博、新闻、紧急情况等方面。其他领域和开放领域的研究很少。关于领域和跨语言事件抽取技术的研究很少。

3）缺乏大规模成熟的语料和标注语料，需要进一步完善。手动标注语料库既费时又费力，而且缺少语料库限制了事件抽取技术研究的发展。因此，大型语料库的自动构建技术方法需要进一步研究。

4）如何设计神经网络模型以实现多任务联合是一大难点。

二、数据集及评价指标篇

4.1 事件抽取中常见的英文数据集有哪些？

ACE2005 English Corpus

ACE 2005多语种训练语料库包含了用于2005年自动内容抽取(ACE)技术评价的完整的英语、阿拉伯语和汉语训练数据集。语料库由语言数据联盟(LDC)为实体、关系和事件注释的各种类型的数据组成，该联盟得到了ACE计划的支持和LDC的额外帮助。下载地址为：https://catalog.ldc.upenn.edu/LDC2006T06

Rich ERE

Rich ERE扩展了实体、关系和事件本体，并扩展了什么是taggable的概念。Rich ERE还引入了事件跳跃的概念，以解决普遍存在的事件共引用的挑战，特别是关于在文档内和文档之间的事件提及和事件参数粒度变化，从而为创建(分层的或嵌套的)跨文档的事件表示铺平了道路。下载地址为：https://www.aclweb.org/old_anthology/W/W15/W15-0812.pdf

TAC 2015

TAC KBP事件跟踪的目标是提取关于事件的信息，以便这些信息适合作为知识库的输入。轨迹包括用于检测和链接事件的事件块任务，以及用于提取属于同一事件的事件参数和链接参数的事件参数(EA)任务。2015年TAC KBP赛事轨迹分为5个子任务。下载地址为：https://tac.nist.gov//2015/KBP/Event/index.html

KBP 2017

TAC知识库填充(KBP)的目标是开发和评估从非结构化文本中填充知识库的技术。KBP包括为KBP开发特定组件和功能的组件跟踪，以及称为“冷启动”的端到端KB构建任务，该任务通过在技术成熟时集成选定的组件从头开始构建KB。与在冷启动KB任务中执行的功能相比，组件跟踪中所需的功能可以“更多”，也可以“更少”。组件轨道比冷启动“更多”，因为每个轨道可能探索未立即集成到冷启动任务中的试点任务; 他们是“少”,将组件集成到一个KB需要额外协调与和解各个组件之间的不匹配,这样KB符合知识库模式(例如,知识库不能断言一个实体是一个事件的“地方”如果它还断言,实体是一个“人”)。下载地址为：https://tac.nist.gov/2017/KBP/

Twitter datasets【CrisisLexT26 datasets】

CrisisLexT26来自26次危机的推文，贴有丰富的信息，信息类型和来源，2014年11月

此集合包括在2012年和2013年的26次大型危机事件中收集的推文，每个危机中大约有1,000条推文被标记为信息性（即“信息性”或“非信息性”），信息类型和来源。

Genia Event Extraction dataset\Genia dataset

GENIA语料库是为GENIA项目编写并标注的最初的生物医学文献集合。这个语料库是为了发展和评估分子生物学信息检索及文本挖掘系统而创建的。

这个语料库包含1999条Medline的摘要，这些摘要是由PubMed按照human、blood cells以及transcription factors三个医学主题词（medical subject heading terms ）为搜索条件搜索到的。这个语料库已经被按照不同级别的语言信息、语义信息进行标注。

包含36种实体种类（医学数据集）, 我们把所有的DNA子类别都合并为DNA种类。同样的设置也适用于RNA、蛋白质、细胞系和细胞类类别。最终只保留5种类别。
最初始的GENIA语料库标注类别以及对应的资料如下：
• Part-of-Speech annotation
• Constituency (phrase structure) syntactic annotation
• Term annotation
• Event annotation
• Relation annotation
• Coreference annotation
• 词性标注
• 句法标注
• 术语标注
• 事件标注
• 关系表述
• 共指标注

其他的还有，Spainish ERE Corpus, Wikipedia article, BioNLP Cancer Genetics (CG) Shared Task 2013 等等

4.2 事件抽取中常见的中文数据集有哪些？

ACE2005 Chinese Corpus

CEC 中文突发事件语料库

事件本体是以“事件”为认知单元，研究事件的组成以及事件之间的关系，并对事件进行归纳和概括，形成事件类，进而构建事件本体模型。研究本体，必然要先构建语料库，所以在互联网上选取了突发事件语料来进行语料的事件标注，突发事件的分类体系，包括三个层次：一级4个大类（自然灾害类N、事故灾难类A、公共卫生事件P、社会安全事件S），二级33个子类，三级94个小类。我们标注的语料库称为CEC（Chinese Emergency Corpus），主要包括五类：地震、火灾、交通事故、恐怖袭击、食物中毒。合计332篇，下载地址为：https://github.com/shijiebei2009/CEC-Corpus

中文突发事件语料库是由上海大学（语义智能实验室）所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系，从互联网上收集了5类（地震、火灾、交通事故、恐怖袭击和食物中毒）突发事件的新闻报道作为生语料，然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理，最后将标注结果保存到语料库中，CEC合计332篇。

CEEC 中文环境突发事件语料库

中文环境突发事件语料库是由上海大学（语义智能实验室）所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系，从互联网上收集了6类环境污染类突发事件的新闻报道作为生语料，然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理，最后将标注结果保存到语料库中，CEEC合计100篇。下载地址为：https://github.com/shijiebei2009/CEEC-Corpus

CEEC 采用了 XML 语言作为标注格式，其中包含了六个最重要的数据结构（标记）：Event、Denoter、Time、Location、Participant 和 Object。Event用于描述事件；Denoter、Time、Location、Participant 和Object用于描述事件的指示词和要素。此外，我们还为每一个标记定义了与之相关的属性。与ACE和TimeBank语料库相比，CEEC语料库的规模虽然偏小，但是对事件和事件要素的标注却最为全面。

4.3 事件抽取的评价指标是什么？怎么计算的？

事件抽取主要采用准确率（Precision，P）、召回率（Recall,R）和 F1 值（F1-Measure,F1） 3 项作为基本评价指标。其中，准确率是指系统中抽取出的正确个数占抽取出总数的比例，用来衡量抽取准确程度；召回率是指系统中正确抽取的个数占所有正确总数的比例，用来衡量抽取全面程度；F1 值是准确率和召回率的加权平均值，作为系统性能的总体评价。事件抽取所采用的这三个评价指标的具体公式如下:

图片.png

其中，TP (True Positive）是正确抽取的预测为正例的数目，FP (False Positive）是被错误抽取的预测为正例的数目，FN (False Negative)则是被错误抽取的预测为负例的数目。事件抽取模型的性能通常通过 F1 值来综合判断， F1 值越大，模型性能越好。

远程监督兴起后，模型所需要处理的数据规模量级增加，在考察系统性能时，也将运行时间和内存占用作为评价指标的一部分进行考量。

F1平均值法一般多用于单一事件抽取任务中，如: 突发事件、门户网站、金融资讯的事件抽取。对于话题追踪任务而言，相对于正确率，人们对系统作出的错误判断往往更为敏感，这些错误包括：本应为是的判断为否 (丢失) ，本应为否的判断为是 (误报) ，因此常采用错误识别代价作为效果评价方法。另外，事件抽取的各种算法在实际应用中，除考虑其识别结果的正确率外，还应该考虑算法的复杂程度及其可实现性。一些抽取效果好的算法往往是以牺牲时间为代价的。一些算法可能由于硬件要求太高，或训练时间太长而不具备可行性。

三、拓展

1 事件抽取论文综述

元事件抽取研究综述, 2019[https://doi.org/10.11896/j.issn.1002-137X.2019.08.002]

首先，简要介绍了元事件和元事件抽取的基本概念，以及元事件抽取的主要实现方法。然后，重点阐述了元事件抽取的主要任务，详细介绍了元事件检测过程，并对其他相关任务进行了概述。最后,总结了元事件抽取面临的问题，在此基础上展望了元事件抽取的发展趋势。

An Overview of Event Extraction from Text, 2019[http://ceur-ws.org/Vol-779/derive2011_submission_1.pdf]
文本挖掘的一个常见应用是事件抽取，它包括推导出与事件相关的特定知识，这些知识重新映射到文本中。事件抽取可处理各种类型的文本，如(在线)新闻消息、博客和手稿。本文献回顾了用于各种事件抽取目的的文本挖掘技术。它提供了关于如何根据用户、可用内容和使用场景选择特定事件抽取技术的一般指南。

A Survey of Event Extraction from Text, 2019[https://doi.org/10.1109/ACCESS.2019.2956831]

事件抽取的任务定义、数据源和性能评估，还为其解决方案方法提供了分类。在每个解决方案组中，提供了最具代表性的方法的详细分析，特别是它们的起源、基础、优势和弱点。最后，对未来的研究方向进行了展望。

A Survey of Textual Event Extraction from Social Networks, 2017[http://ceur-ws.org/Vol-1988/LPKM2017_paper_15.pdf]

过去的十年中，在社交网络上挖掘文本内容以抽取相关数据和有用的知识已成为无所不在的任务。文本挖掘的一种常见应用是事件抽取，它被认为是一个复杂的任务，分为不同难度的多个子任务。

在本文中，对现有的主要文本挖掘技术进行了概述，这些技术可用于许多不同的事件抽取目标。首先，介绍基于统计模型将数据转换为知识的主要数据驱动方法。其次，介绍了基于专家知识的知识驱动方法，通常通过基于模式的方法来抽取知识。然后，介绍结合了数据驱动和知识驱动方法的主要现有混合方法。最后，比较社交网络事件抽取研究，概括了每种提出的方法的主要特征。

A Survey of event extraction methods from text for decision support systems, 2016[https://doi.org/10.1016/j.dss.2016.02.006]

事件抽取是一种可以追溯到20世纪80年代的专门的信息抽取流程，由于大数据的出现以及文本挖掘和自然语言处理等相关领域的发展，事件抽取技术得到了极大的普及。然而，到目前为止，对这一特殊领域的概述仍然是难以捉摸的。

因此，总结了文本数据的事件抽取技术，划分成数据驱动、知识驱动和混合方法三类，并对这些方法进行了定性评价。此外，还讨论了从文本语料库中抽取事件的常见决策支持应用。最后，对事件抽取系统的评价进行了阐述，并指出了当前的研究问题。

2 事件抽取常见问题（面试）

① 事件抽取的定义/概念是什么？哪些比赛/会议给出了定义？

A: 时间，地点，人物，故事情节。
A: ACE 05 中对事件进行了明确的定义。
A: 属性信息（Attribute），包括：类型（Type）、子类（Subtype）、模态（Modality）、倾向性（Polairty）、普遍性（Genericity）和时态（Tense）。

Q:不同任务对事件的定义不同吧，能具体解释下这些字段吗？

A: 属性是实体、数值和时间的集合。
A: 我认为关系抽取一般来说是针对两个实体的，而事件抽取的话，不同事件类型会对应不同的元素元素（事件要素）。
A: 一般来说是的，需要提前定义好事件的类型以及每种类型包含的属性。
A: ACE05 中给出了类似的 schema，此处给出 ace05 对事件抽取的定义：

在这里插入图片描述

Q:能简单介绍一些事件抽取的应用背景吗？

A: 比如一个事件里的被杀人数就是个数值，我记得最开始是用于反恐情报收集的。
A: 之前看过有人写事件是一种特殊的关系，不知道是否正确。
A: 新闻撰写机器人，比如百度知识图谱团队研发的写稿机器人，基于事件图谱自动生成一些大事件文章。

Q:事件是要分类型的吧？

A: 看描述好像也有实体那种感觉。
A: 事件类型要先定义出来。
A: 有些研究是针对微博，将事件分为 4 元组：命名实体， 事件短句，日期，事件类型。
A: 觉得定义事件跟抽取语义是一样的，此处放上一张分类ace05事件抽取分类图：

在这里插入图片描述

Q:事件抽取针对的是一段话还是一篇文章呢？

A: 针对一句话是 sentence-level 的，还有 document-level，cross-sentence level，cross-document level 的等等。

② 有哪些常用的评测数据集和评测标准？

A: ACE2005

③ 国内外有哪些研究团队和学者，它们主要研究的目标是什么？

A: 国内好像苏州大学周国栋团队，哈工大刘挺，秦兵团队。
A: 国外有韩家炜，继桓团队。
A: 国内企业有百度知识图谱团队。
A: 国内外相关研究团队发表的论文：

④ 事件抽取有哪些应用场景和实际的产品？

A: 股票，金融，QA，新闻趋势跟踪，舆情，事件型投资，并购。
A: 反恐，反诈骗，政策性投资。
A: 生物医学有类似药物不良反应的事件抽取。
A: 通过对新闻热点事件的抽取，也许可以用来预测 IT 基础设施的故障，这个案例 NTT 做过，通过大量新闻事件的分析抽取预测了大规模网络故障。

Q: 为什么通过新闻可以预测网络故障呢？

A: 如果突然有个突发事件，网络上也许会引发大规模的群体关注，相关网络的服务器也许突然大规模负载上升。
A: 百度的知识图谱团队在事件图谱这块开展了不少前沿性的工作，并已经落地在了一些产品上；他们的目标是打造一个覆盖面最全时效性最快分析最全面精准的中文事件图谱。目前的产品形态比如事件脉络，明星事件追踪，明星历史热点等产品。

⑤ 事件抽取的一般过程，有标注数据开展研究，如何扩展，没有数据怎么做？

A: 种子迭代，规则，模板。机器学习也可以用，比如论元的检测，就是构建一些特征，然后分类。
A: 这个还是要做垂直领域，从规则和模板开始。
A: 一些门户网站倒是可以通过访问量（检测波峰）的方法来看是不是发生了事件。

Q: 事件抽取一般有什么方法呢？

A: 带监督的深度卷积网络肯定是一个。
A: CNN 用的比较多。
A: 估计从规则到机器学习都有，看具体的场景和数据。
A: 经典方法就是：规则+模板，前沿方法：强化+模版（深度卷积）。
A: 基于模板的抽取方法、半监督学习的模板抽取方法、经典机器学习方法、latent model 等等。

⑥ 深度学习在事件抽取上有哪些应用，与传统方法比有什么优势/劣势？

A: 性能好，不用人工构造特征。
A: 触发词的识别和分类，CNN 模型要好。

⑦ 事件抽取与其他信息抽取任务（关系抽取、NER 等）有什么联系，难点在哪？

A: 得先 NER。
A: 时间是不是直接抽取就好了，其它属性该怎么办呢？
A: 配模板的嘛，时间也是模板的一部分。

Q: 触发词一般是预定义好的，还是需要做检测任务？

A: 一般是定义好的，也有检测触发词的任务。

⑧ 事件之间的关系如何表示，如何做事件之间的关系抽取，目前有哪些研究？

A: 我个人看法：事件也许应该是在时间轴上，有明确开始和结束的一段实体与实体产生关系的“运动”。
A: 外国一般都是只做二元关系或者时序上的关系。
A: 研究“事件”必须给他来个操作性定义。
A: Semeval 2015 task4 是有定义的，但是产出产出太少。

⑨ 有哪些值得阅读的论文？有哪些开源了代码的工作？
图片.png

A: 基于符号特征的方法：

图片.png

A: 基于表示学习的方法：

在这里插入图片描述

⑩ 最新的前沿进展有哪些？

A: 我觉得事件之间的关系或网络会是将来的热点。
A: 事件抽取必然会和监控视频结合。
A: 和关系抽取在一起应用。检测事件的关系，舆情监测。其实对话系统也能用。
A: 适合社交媒体，通过分析过往当事人发布的微信及 Facebook，可以做性格分析工作介绍、相亲配对。
A: 延伸过去也可以做推荐系统，顾客销售行为预测。