Apache OpenNLP简介

最新推荐文章于 2025-10-25 10:36:05 发布

原创最新推荐文章于 2025-10-25 10:36:05 发布 · 442 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#知识图谱 #人工智能

Apache OpenNLP 简介

Apache OpenNLP 是一个基于机器学习的自然语言处理工具包，支持多种 NLP 任务，如分词、词性标注、命名实体识别、句法分析等。它是 Java 开发的库，适合处理文本数据的开发需求。

安装与依赖配置

Maven 依赖
在 pom.xml 中添加以下依赖：

<dependency>
    <groupId>org.apache.opennlp</groupId>
    <artifactId>opennlp-tools</artifactId>
    <version>2.0.0</version>
</dependency>

下载预训练模型
从 OpenNLP 官网下载所需任务的预训练模型（如 en-token.bin 用于英文分词）。

核心功能示例

分词（Tokenization）

import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
import java.io.FileInputStream;

public class TokenizerExample {
    public static void main(String[] args) throws Exception {
        TokenizerModel model = new TokenizerModel(new FileInputStream("en-token.bin"));
        TokenizerME tokenizer = new TokenizerME(model);
        String[] tokens = tokenizer.tokenize("Apache OpenNLP is a powerful tool.");
        for (String token : tokens) {
            System.out.println(token);
        }
    }
}

词性标注（POS Tagging）

import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSTaggerME;
import java.io.FileInputStream;

public class POSTaggerExample {
    public static void main(String[] args) throws Exception {
        POSModel model = new POSModel(new FileInputStream("en-pos-maxent.bin"));
        POSTaggerME tagger = new POSTaggerME(model);
        String[] tokens = {"This", "is", "a", "test"};
        String[] tags = tagger.tag(tokens);
        for (int i = 0; i < tokens.length; i++) {
            System.out.println(tokens[i] + " - " + tags[i]);
        }
    }
}

命名实体识别（NER）

import opennlp.tools.namefind.NameFinderME;
import opennlp.tools.namefind.TokenNameFinderModel;
import java.io.FileInputStream;

public class NERExample {
    public static void main(String[] args) throws Exception {
        TokenNameFinderModel model = new TokenNameFinderModel(new FileInputStream("en-ner-person.bin"));
        NameFinderME finder = new NameFinderME(model);
        String[] sentence = {"John", "Doe", "works", "at", "Google"};
        Span[] spans = finder.find(sentence);
        for (Span span : spans) {
            System.out.println("Entity: " + sentence[span.getStart()] + " " + sentence[span.getEnd()-1]);
        }
    }
}