最近在学习过程中,需要对文本进行分词,而且数据量比较大,在 Windows上使用NLPIR处理小文件基本上没有问题( 可以看这里),看NLPIR的开发文档是支持分布式的,因而考虑在Linux上实现hadoop+NLPIR对大量文本数据进行分词和标注。这个过程让我经历了焦头烂额,所以记录下来,便于自己查看,也可以帮助有需要的伙伴~
1.下载NLPIR
NLPIR原名 ICTCLAS,下载点这里,我下载的是2016-10-9发布的NLPIR2016,同时支持Windows和Linux,且有Java/C/C++/C# 多种语言,我这里使用的是Java语言。项目中需要两个文件:一是Data文件夹下的所有内容,二是libNLPIR.so文件
2.Hadoop+NLPIR 代码
NLPIR配置
package com.katoa.segment;
import com.katoa.util.CLibrary;
import com.sun.jna.Native;
public class NLPIR {
CLibrary Instance = (CLibrary) Native.loadLibrary("<sp

最低0.47元/天 解锁文章

1897

被折叠的 条评论
为什么被折叠?



