前段时间做了一个小项目用到了ANSJ分词器 来说说怎么使用吧
先说这是一个Maven项目,需要对pom.xml文件修改增加依赖
依赖如下 写在dependencies内不用说了吧
<!-- ansj依赖jar配置 ==start -->
<dependency>
<groupId>org.ansj</groupId>
<artifactId>ansj_seg</artifactId>
<version>5.1.1</version>
</dependency>
<!-- ansj依赖jar配置 ==end -->
符实际代码吧 这是一个Hive UDF的实现,带main方法测试
先说明这只是Ansj分词器的一种用法,其他用法还需要探索
package cn.tl.g1.UDF;
import java.util.List;
import org.ansj.domain.Result;
import org.ansj.domain.Term;
import org.ansj.splitWord.analysis.NlpAnalysis;
import org.apache.hadoop.hive.ql.exec.UDF;
public class CwsUDF extends UDF {
public String evaluate(String input) {
// 如果输入为空,则直接返回空即可
if (input == null || input.trim().length() == 0) {
return null;
}
// 采用nlp分词,具备(用户自定义词典/数字识别/人名识别/机构名识别/新词发现)功能
Result result = NlpAnalysis.parse(input);
// 如果处理结果为null,则直接