二叉parsing树

最新推荐文章于 2022-07-06 10:21:15 发布

原创

最新推荐文章于 2022-07-06 10:21:15 发布 · 2.3k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#递归 #神经网络

本文介绍如何在Python中利用nltk和CoreNLP获取适合递归神经网络的二叉句法树。首先尝试使用nltk的stanford parser，但非二叉树形式不适用。接着，通过CoreNLP的TreeBinarize实现二叉化，成功得到所需二叉句法树。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文旨在介绍对文本进行成分句法分析, 得到适合递归神经网络的二叉句法树的过程.这是我第一篇论文的baseline中的一个模型,对如何得到二叉句法树纠结了好久,好吧,自己效率有点低.
首先,在网上搜了搜,知道做parsing可以用nltk自带的几种工具,如递归下降句法器,移动归约句法器,chart句法器等.但是需要自己定义上下文无关的文法,自己尝试了定义,但是数据集中的一些句子并不适用,即找不到符合自定义文法的句法树.自己笨的要手工标注,但明显不现实,几乎要放弃这个baseline了.所以总结经验教训:千万不要尝试手工标注,要么用程序解决,要么放弃.
另外一种经常用的就是stanford parser.由于斯坦福nlp团队是用java开发的parser,我目前用的都是python,所以搜索了如何在python中使用stanford parser 的办法.可以用nltk这个第三方工具.nltk也是斯坦福大学出来的,但是不知道和CoreNLP有什么联系.

1 通过nltk,使得在python中可以使用stanford parser

现在就一步步介绍怎么用nltk在python中使用stanfor parser!

确保安装了JDK8或者JRE1.8及以上版本。
首先从http://nlp.stanford.edu/software/lex-parser.shtml#Download下载stanford parser version 3.6.0,
将stanford-parser.jar和stanford-parser-3.6.0-models.jar解压到指定位置，思聪本上是C:\Users\wy\jars
将stanford-parser-3.6.0-models.jar中的\edu\stanford\nlp\models\lexparser\中的englishPCFG.er.gz解压到指定位置，这里是C:\