CausalKnowledgeBase
CausalKnowledgeBase, causal knowledge base including causal pairs extracted from web text using the methods like PMI, Collocation。基于网络文本的因果知识库项目,采用PMI,搭配抽取等方法,形成因果对频繁集。
项目地址:https://github.com/liuhuanyong/CausalCollocation
项目介绍
因果关系是语言逻辑关系中重要的组成部分,通过挖掘因果关系,可以在多个方向上产生作用,如对词作embedding,基于因果关系的预测等。目前,学术界中关于因果关系的抽取主要分成实体因果关系抽取和事件因果关系抽取,两者分别以实体和事件作为因果单元,实体大多为名词,事件大多为单个动词,这方面的工作可以参考semeval以及causalbank的相关工作。
因果单元的确定是因果关系抽取中的根本问题,不同的因果单元所能应用的场景会有着较大的差异。名词性的实体单元事件性太差,单一动词性单元语义过于抽象,在实际应用中会带来很多的噪声。
在这方面,我主要完成了以下工作:
1)CausalityEventExtraction项目, https://github.com/liuhuanyong/CausalityEventExtraction ,该项目从语言学的角度,给出了因果关系模式集,基于该模式集,可以初步抽取出因果描述单元,可以作为因果事件抽取的前期工作。
2)EventPredictBasedOnEG项目, https://github.com/liuhuanyong/EventPredictBasedOnEG ,该项目从建成因果事理图谱的基础上,给出了一个因果查询api,用于未来事件预测的工作,可作为一个应用环节。
然而,以上两个项目都是从宽泛意义上的事件上来做的,在粒度上介于词语句子之间,泛化能力较差,而且在事件的概率转移上,一直无法得到很好的解决。我在想,是否能够讲搭配抽取的方法引入到因果知识库的构建当中,因为在之前,看到一个在英文因果对抽取的工作(http://www.cs.sjtu.edu.cn/~kzhu/papers/kzhu-copa.pdf), 该工作从Bing网页快照中提取的可能的因果关系对,形成7千万的因果关系对,每一行有三个元素,分别为原因,结果和频率。从下载数据来看,数据很乱,暂时想不出来有什么工业用处。因此,我想到因果频繁项集的概念,能否根据因果对的共现信息,通过计算因果对之间的搭配,从而形成以事件性词语(名词、动词、形容词)的因果搭配知识库。