NLPIR+Hadoop

最新推荐文章于 2021-12-13 21:12:18 发布

原创

最新推荐文章于 2021-12-13 21:12:18 发布 · 1.3k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#NLPIR #ICTCLAS #Hadoop

最近在学习过程中，需要对文本进行分词，而且数据量比较大，在 Windows上使用NLPIR处理小文件基本上没有问题（可以看这里），看NLPIR的开发文档是支持分布式的，因而考虑在Linux上实现hadoop+NLPIR对大量文本数据进行分词和标注。这个过程让我经历了焦头烂额，所以记录下来，便于自己查看，也可以帮助有需要的伙伴~

1.下载NLPIR

NLPIR原名 ICTCLAS，下载点这里，我下载的是2016-10-9发布的NLPIR2016，同时支持Windows和Linux，且有Java/C/C++/C# 多种语言，我这里使用的是Java语言。项目中需要两个文件：一是Data文件夹下的所有内容，二是libNLPIR.so文件

2.Hadoop+NLPIR 代码

NLPIR配置

package com.katoa.segment;

import com.katoa.util.CLibrary;
import com.sun.jna.Native;

public class NLPIR {

	CLibrary Instance = (CLibrary) Native.loadLibrary("<sp