分两步:
第一步:实现hankcs.hanlp/corpus.io.IIOAdapter

public class HadoopFileIoAdapter implements IIOAdapter {
@Override
public InputStream open(String path) throws IOException {
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(URI.create(path), conf);
return fs.open(new Path(path));
}
@Override
public OutputStream create(String path) throws IOException {
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(URI.create(path), conf);
OutputStream out = fs.create(new Path(path));
return out;
}
}
第二步:修改配置文件。root为hdfs上的数据包,把IOAdapter改为咱们上面实现的类
b

本文介绍了如何在Spark集群上利用HanLP进行分布式分词操作,主要包括实现hankcs.hanlp.corpus.io.IIOAdapter接口以及修改配置文件,将数据源指向HDFS并指定自定义的IOAdapter类,从而实现分词功能。
最低0.47元/天 解锁文章
1181

被折叠的 条评论
为什么被折叠?



