pydotplus画句子的依存结构树

本文介绍了如何利用pydotplus库来绘制句子的依存结构树,详细讲述了处理CONLL格式文件、构建树结构以及设置边属性的方法,并展示了实验结果。

pydotplus画句子的依存结构树

最开始是打算用pygraphviz这个控件画的,可是安装成功后一直说的缺少什么.dll,只好作罢,中间也用过graphviz,直接用dot语言画图(参照使用dot语言画树结构),后来老师又给我推荐了pydotplus,这是python写dot语言的接口,之前pygraphviz是python写graphviz程序的接口(其实也差不多),因为graphviz也是用dot语言写的。写到这里,我只想说:python大法,文成武德,泽披苍生,千秋万载,一统江湖。

接下来,说正事。

前期介绍

我要处理所有数据文件均采用CONLL格式,UTF8编码。CONLL标注格式包含10列,分别为:

ID FORM LEMMA CPOSTAG POSTAG FEATS HEAD DEPREL PHEAD PDEPREL

本次实验只用到前8列,其含义分别为:

1 ID 当前词在句子中的序号,1开始.
2 FORM 当前词语或标点
3 LEMMA 当前词语(或标点)的原型或词干,在中文中,此列与FORM相同
4 CPOSTAG 当前词语的词性(粗粒度)
5 POSTAG 当前词语的词性(细粒度)
6 FEATS 句法特征,在本次评测中,此列未被使用,全部以下划线代替。
7 HEAD 当前词语的中心词
8 DEPREL 当前词语与中心词的依存关系

在CONLL格式中,每个词语占一行,无值列用下划线’_’代替,列的分隔符为制表符’\t’,行的分隔符为换行符’\n’;句子与句子之间用空行分隔。

具体实例如下:

1 坚决 坚决 a ad _ 2 方式
2 惩治 惩治 v v _ 0 核心成分
3 贪污 贪污 v v _ 7 限定
4 贿赂 贿赂 n n _ 3 连接依存

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值