openNLP（1）_分词

最新推荐文章于 2023-11-12 10:04:34 发布

最新推荐文章于 2023-11-12 10:04:34 发布 · 392 阅读

文章标签：

#Eclipse #.net #Apache #HTML

NLP 专栏收录该内容

8 篇文章

订阅专栏

本文介绍了使用openNLP进行分词的过程，包括所需下载的模型文件及具体代码实现方式。通过实例演示如何将字符串切分为单词。

前端时间看了一下openNLP，用了一下，把自己的体会写下来。。
首先，openNLP是关于自然语言处理的开源项目，可以用eclipse作为第三方插件，去它的官方网站http://incubator.apache.org/opennlp/index.html下载需要的包，或者直接去http://sourceforge.net/projects/opennlp/ 下载。导入三个包：maxent-3.0.0.jar，jwnl-1.3.3.jar，opennlp-tools-1.5.0.jar

下面说一下分词：
openNLP使用了不同的模型实现诸如分词，分句，标注。所以在使用之前需要下载对应的模型http://opennlp.sourceforge.net/models-1.5/
包括了六种语言。分词上我下的英文：en-token.bin加到项目中就可以了
分词的代码：
import java.io.*;
import opennlp.tools.tokenize.Tokenizer;
import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
/*
*输入：需要分词的字符串
*输出：字符串数组
*/
public String[] Token(String str){
try{
InputStream modelIn = new FileInputStream("en-token.bin");
TokenizerModel model = null;
try {
model = new TokenizerModel(modelIn);
}
catch (IOException e) {
e.printStackTrace();
}
finally {
if (modelIn != null) {
try {
modelIn.close();
}
catch (IOException e) {
}
}
}
Tokenizer tokenizer = new TokenizerME(model);
String tokens[] = tokenizer.tokenize(str);
return tokens;
}
catch(FileNotFoundException e){return null;}
}
-----------------------------------------------------------------------------
了解的不深入，希望多多指教