二叉parsing树

本文介绍如何在Python中利用nltk和CoreNLP获取适合递归神经网络的二叉句法树。首先尝试使用nltk的stanford parser,但非二叉树形式不适用。接着,通过CoreNLP的TreeBinarize实现二叉化,成功得到所需二叉句法树。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文旨在介绍对文本进行成分句法分析, 得到适合递归神经网络的二叉句法树的过程.这是我第一篇论文的baseline中的一个模型,对如何得到二叉句法树纠结了好久,好吧,自己效率有点低.
首先,在网上搜了搜,知道做parsing可以用nltk自带的几种工具,如递归下降句法器,移动归约句法器,chart句法器等.但是需要自己定义上下文无关的文法,自己尝试了定义,但是数据集中的一些句子并不适用,即找不到符合自定义文法的句法树.自己笨的要手工标注,但明显不现实,几乎要放弃这个baseline了.所以总结经验教训:千万不要尝试手工标注,要么用程序解决,要么放弃.
另外一种经常用的就是stanford parser.由于斯坦福nlp团队是用java开发的parser,我目前用的都是python,所以搜索了如何在python中使用stanford parser 的办法.可以用nltk这个第三方工具.nltk也是斯坦福大学出来的,但是不知道和CoreNLP有什么联系.

1 通过nltk,使得在python中可以使用stanford parser

现在就一步步介绍怎么用nltk在python中使用stanfor parser!

确保安装了JDK8或者JRE1.8及以上版本。
首先从http://nlp.stanford.edu/software/lex-parser.shtml#Download下载stanford parser version 3.6.0,
将stanford-parser.jar和stanford-parser-3.6.0-models.jar解压到指定位置,思聪本上是C:\Users\wy\jars
将stanford-parser-3.6.0-models.jar中的\edu\stanford\nlp\models\lexparser\中的englishPCFG.er.gz解压到指定位置,这里是C:\

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值