内容编辑:想读博的针针 中山大学图书情报学硕士,python爱好者
如何将输入的文档转变为只含有关键信息的图谱?
本文来自https://github.com/liuhuanyong/TextGrapher
在运行程序前,请确保已安装pyltp,详细的pyltp安装教材请参考:https://github.com/HIT-SCIR/pyltp
项目介绍
如何用图谱和结构化的方式,即以简洁的方式对输入的文本内容进行最佳的语义表示是个难题。Text Grapher对这一问题进行了尝试,采用的方法为:输入一篇文档,将文档进行关键信息提取,并进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示。
使用方法
在项目文件下下新建一个python文件,输入以下代码:
from text_grapher import *
content = '你要分析的文本'
handler = CrimeMining()
handler.main(content)
运行该文件,生成的图谱内容保存在项目文件夹graph.html的文件中。
以中科院研究所遇害案为例:
新建text.py文件,输入以下代码:
# -*- coding: utf-8 -*-
from text_grapher import *
content = '''
(原标题:中科院研究生遇害案:凶手系同乡学霸,老师同学已为死者发起捐款)
6月14日下午6点多,中科院信息工程研究所硕士研究生谢雕在饭馆招待自重庆远道而来的高中同学周凯旋时,被周凯旋用匕首杀害。随后,周凯旋被北京警方抓获。
周凯旋被抓后,他的家人向被警方递交了精神鉴定材料,称周凯旋患有精神性疾病。
谢雕的家人罗发明告诉南都记者,谢雕被害后,他的研究生老师和同学发起了捐款。并说,谢雕的遗体已经进行尸检,等尸检结果出来后,家人将会把火化后的骨灰带回老家安葬,之后,他们将等待北京检察机关的公诉。
高中同学千里赴京去杀人
今年25岁的谢雕生长于重庆垫江县的一个小山村,谢雕和周凯旋同在垫江中学读高中,两人学习成绩名列前茅,周凯旋经常考年级第一,两人都是垫江中学的优秀毕业生,谢雕考上了西安电子科技大学,周凯旋考取了四川大学。
微信图片_20180627174901_副本.jpg案发现场的行凶者周凯旋(受访者提供)。
学习优秀的周凯旋认为自己应该能考上北大清华等名校,于是在入读四川大学两三个月后,选择了退学复读。经过半年多的苦读,周凯旋以优异成绩考取了西安交通大学,来到了谢雕所在的城市,且是硕博连读。
但周凯旋因大学本科期间因沉迷游戏,考试不及格,最终失掉了硕博连读的机会,本科毕业后就回到重庆寻找就业机会。谢雕自西安电子科技大学毕业后,在2016年考取了中国科学院大学的硕士研究生,所读专业隶属于中科院信息工程研究所。
谢雕的家人告诉南都记者,6月14日下午6点,谢雕在西五环外的中科院信息工程研究所门口见到了久未见面的高中同学周凯旋。把他带到旁边的饭馆吃饭,两人还合影发到了高中同学微信群。这时,谢雕还没意识到周凯旋即将对他带来致命伤害。
南都记者在谢雕遇害现场视频中看到,在谢雕点菜时,周凯旋用匕首刺向他胸部,谢雕中刀站起后退时,周凯旋用匕首又刺向他颈部,谢雕倒地后,周凯旋又从背部向他连刺几刀。之后,又持刀割断了谢雕的颈部动脉。这时,有食客拿起椅子砸向正在行凶的周凯旋。刺死谢雕后,周凯旋举起双手挥舞,随后扬长而去。后来,周凯旋被北京警方抓获。
同学聚会时自己觉得受伤害起杀心
罗发明告诉南都记者,作为被害人家属,他们向北京警方了解到