事件抽取和事件知识图谱构建——中科院 陈玉博
学习视频链接
字幕链接
PPT可在我的资源中下载
在知识图谱领域,事件是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。
基于定义,我们在建模的时候就有几点需要注意。
首先就是不同动作或者状态的改变是不同类型的事件,就比如说奥巴马上任和奥巴马离任这都是两个类型的事件。
同一类型的事件中不同的元素代表了不同的事件,比如奥巴马上任和特朗普上任,这是两个事件。
同一个类型的事件中不同粒度的元素代表不同粒度的事件。事件之间其实有很多关系,其中子事件就是一个比较有代表性的,同样是战争类型的事件,持续的时间或者元素的粒度不一样,就有二战、抗日战争和淞沪会战之分,它们是不同粒度的事件。
构建一个事件图谱有两项关键技术,第一是事件抽取,第二是事件关系抽取。
事件抽取分两个步骤:第一步就是事件的发现和抽取,第二个是事件元素的抽取。事件发现是你要让计算机知道读完这一句话,是哪一个词触发了这个类型的事件并且判断它触发什么类型。
然后是事件元素抽取,就是说你要让计算机判断出参与这个事件所有的元素是什么,并且它们在这个事件当中扮演一个什么角色,比如说美团和大众点评合并这样一个事件,其实它描述的就是一个公司合并事件。美团和大众点评在这里就是两个参与者了,10月8日就是合并事件发生的时间,这是我们希望计算机能自动从文本当中提取出来的。
另外一个就是事件关系抽取,事件关系给大家介绍四类:共指,时序,因果和子事件。
在通用领域的事件抽取其实是很难的,难在大规模、高质量的训练数据的缺失,还有鲁棒特征的提取。相比较而言,在限定领域,尤其是金融领域的事件抽取,是有可能取得不错的效果的,在限定领域,它的文本类型受限,语言表述的规律性也比较强,而且它是知识密集型的。目前在金融领域的实践中已经证明能够替代部分人工,提取的精确度能随着样本量的增加以及算法的优化而不断提高,可用性程度会进一步扩大,事件抽取以及事件图谱的构建在金融领域的影响力也必将不断增强。
小编太懒啦,剩下的大家自己去康康视频和PPT吧!很期待可以和大家一起交流学习!