NLTK中使用Stanford parser 构建中文语法树

本文介绍了在Ubuntu 16.10系统中,如何配置Java 8环境并使用Stanford Parser构建中文语法树。首先,需要下载并解压stanford-parser-full的zip文件,然后在Java项目中直接引用jar文件。对于Python开发,通过NLTK的Stanford接口进行操作,但官方推荐的Jpype方法因缺少c++支持而未能成功。解决方法是解压Stanford-parser-x.x.x-models.jar,并在代码中指定模型位置。此外,文章提到了chinese-models.jar与full包的区别,后者包含更多语言模型,特别是针对中文的详细模型。

我的环境是ubuntu16.10,最新的stanford parser 需要Java8环境,因此首先需要安装JDK。然后到http://nlp.stanford.edu/software/lex-parser.shtml#Download网址下载stanford-parser-full-xxxx-xx-xx.zip,将这个压缩包解压。

如果是用Java进行开发,则就很容易了,将解压包里的几个jar添加到项目工程就可以了,我用IDEA测试了下是可以构建中文语法树的。

 

而如果用Python最好是通过NLTK提供的stanford接口进行开发,官网上提供的那个利用Jpype是相当蛋疼的,并没有安装成功,显示缺少c++的支持,我把GCC和G++更新了也没有用,不知道有没有破坏电脑上其他依赖关系。

在解压包中找到Stanford-parser-x.x.x-models.jar继续解压到一个文件夹。这样就可以写代码了。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值