EvolutionaryEventGraph
项目地址:https://github.com/liuhuanyong/SequentialEventExtration
Evolutionary Event Graph based on Travel note crawled from XieCheng,基于50W携程出行攻略的顺承事件抽取与事件图谱构建.
项目来源
目前,以谓词性短语作为事件表示的方法方兴未艾,针对特定领域,构建起特定领域的顺承事件图谱,可以支持事件推理,基于事件的意图识别与推荐等多项运用.
本项目将从出行领域展开进行实验.
项目构成
本项目由两个部分的组成,具体包括语料的获取以及基于语料的事件挖掘两个部分,具体项目目录包括:
news_spider:基于scrapy的游记采集脚本
event_graph:基于依存句法与顺承模式的顺承事件抽取脚
image:游记顺承事件图谱效果图
一 出行领域语料的获取
-
语料来源:携程出行攻略
-
时间范围:2018年7月14日之前
-
采集方式:使用scrapy编写爬虫脚本进行抓取
-
采集规模:共采集505767篇,量级50W
-
采集脚本目录:news_spider/travelspider
-
语料举例:
107330 一路向南——第二篇相逢南通(自驾游) - 游记攻略【携程攻略】 107331 彩云之南—云上的蜜月之旅 - 丽江游记攻略【携程攻略】 107332 甘肃游记之玛曲郎木寺

该项目从携程出行攻略中抽取50W篇游记,构建顺承事件图谱。通过依存句法和顺承模式,提取谓词性短语,形成事件节点326781个,顺承事件对543580条。展示了不同类型的子图谱,如去丽江、飞机、火车路线和订酒店等。目前存在的问题是噪音和依赖关系的准确性,未来有提升空间。
最低0.47元/天 解锁文章
1291

被折叠的 条评论
为什么被折叠?



