IK Analyzer分词及词频统计Java简单实现

本文介绍了如何使用Java和IK Analyzer在Hadoop MapReduce框架下进行中文分词并统计词频。通过创建ChineseWordCount类,实现Mapper和Reducer类,处理红楼梦txt文件并输出结果,最后通过SortWords类对输出文件进行处理,展示词频最高的词汇。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

IK Analyzer基于Hadoop MapReducer框架Java实现:

1、新建一个ChineseWordCount类

2、在该类中再建一个私有静态类CWCMapper继承Mapper类,并复写Mapper类中map方法。

PS:Mapper的4个泛型分别为:输入key类型,通常为LongWritable,为偏移量;输入value类型;输出key类型;输出value类型

private static class CWCMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();
        @Override
        protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)
                throws IOException, InterruptedException {
            /**
            *要注意编码格式,本次红楼梦txt文档为GBK编码格式,则需要转换编码格式
            *转换编码格式,不能先将Text对象转换为String对象
            *转换不成功:String str=value.toString(); str=new String(str.getBytes(),"编码格式");
            应该直接value.getBytes(), 再转换格式*/
            byte[] bt = value.getBytes();
            //因为红楼梦的所有txt为gbk编码格式
            String str = new String(bt, "gbk");
            Reader read = new BufferedReader(new StringReader(str));
            IKSegmenter iks = new IKSegmenter(read, true);
        &n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值