NLTK中使用Stanford parser 构建中文语法树

最新推荐文章于 2025-06-23 10:44:29 发布

原创

最新推荐文章于 2025-06-23 10:44:29 发布 · 1.1w 阅读

13 ·

CC 4.0 BY-SA版权

本文介绍了在Ubuntu 16.10系统中，如何配置Java 8环境并使用Stanford Parser构建中文语法树。首先，需要下载并解压stanford-parser-full的zip文件，然后在Java项目中直接引用jar文件。对于Python开发，通过NLTK的Stanford接口进行操作，但官方推荐的Jpype方法因缺少c++支持而未能成功。解决方法是解压Stanford-parser-x.x.x-models.jar，并在代码中指定模型位置。此外，文章提到了chinese-models.jar与full包的区别，后者包含更多语言模型，特别是针对中文的详细模型。

我的环境是ubuntu16.10，最新的stanford parser 需要Java8环境，因此首先需要安装JDK。然后到http://nlp.stanford.edu/software/lex-parser.shtml#Download网址下载stanford-parser-full-xxxx-xx-xx.zip，将这个压缩包解压。

如果是用Java进行开发，则就很容易了，将解压包里的几个jar添加到项目工程就可以了，我用IDEA测试了下是可以构建中文语法树的。