ansj分词器 java分词器 的hive UDF实现

前段时间做了一个小项目用到了ANSJ分词器 来说说怎么使用吧

先说这是一个Maven项目,需要对pom.xml文件修改增加依赖

依赖如下 写在dependencies内不用说了吧

		<!-- ansj依赖jar配置 ==start -->
		<dependency>
			<groupId>org.ansj</groupId>
			<artifactId>ansj_seg</artifactId>
			<version>5.1.1</version>
		</dependency>
		<!-- ansj依赖jar配置 ==end -->

符实际代码吧 这是一个Hive UDF的实现,带main方法测试

先说明这只是Ansj分词器的一种用法,其他用法还需要探索

package cn.tl.g1.UDF;

import java.util.List;

import org.ansj.domain.Result;
import org.ansj.domain.Term;
import org.ansj.splitWord.analysis.NlpAnalysis;
import org.apache.hadoop.hive.ql.exec.UDF;

public class CwsUDF extends UDF {
	public String evaluate(String input) {
		// 如果输入为空,则直接返回空即可
		if (input == null || input.trim().length() == 0) {
			return null;
		}
		// 采用nlp分词,具备(用户自定义词典/数字识别/人名识别/机构名识别/新词发现)功能
		Result result = NlpAnalysis.parse(input);
		// 如果处理结果为null,则直接
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值