word count

word count

package cn.edu.swpu.scs;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;

public class WordCountWithCombine extends Configured implements Tool {

    public static void main( String[] args ) throws Exception {
        int res = ToolRunner.run(new WordCountWithCombine(), args);
        System.exit(res);
    }

    public static String tempValue;

    // 配置作业的主要参数和流程overwrite
    public int run(String[] args) throws Exception {
        ////////////////////////////////////////////////////////////
        // 创建作业,配置作业所需参数
        Configuration conf = new Configuration();
        // 创建作业
        Job job = Job.getInstance(conf, "WordCountWithCombine");
        String arg1 = args[0], arg2 = args[1];
        System.out.println("args1=====" + arg1);
        System.out.println("args2=====" + arg2);
        tempValue = "this value is from run";

        // 注入作业的主类
        job.setJarByClass(WordCountWithCombine.class);

        // 为作业注入Map和Reduce类
        job.setMapperClass(Map.class);
        //job.setCombinerClass(Combine.class);
        //job.setReducerClass(Reduce.class);
        //job.setNumReduceTasks(4);
        // 指定输入类型为:文本格式文件;注入文本输入格式类
        job.setInputFormatClass(TextInputFormat.class);
        TextInputFormat.addInputPath(job, new Path(arg1));
        //TextInputFormat.addInputPath(job, new Path("/mapred_input1"));

        // 指定输出格式为:文本格式文件;注入文本输入格式类
        job.setOutputFormatClass(TextOutputFormat.class);
        // 指定Key为文本格式;注入文本类
        job.setOutputKeyClass(Text.class);
        // 执行Value为整型格式;注入整型类
        job.setOutputValueClass(IntWritable.class);
        // 指定作业的输出目录
        TextOutputFormat.setOutputPath(job, new Path(arg2));
        //TextOutputFormat.setOutputPath(job, new Path("/mapred_output1"));

        ////////////////////////////////////////////////////////////
        // 作业的执行流程
        // 执行MapReduce
        boolean res = job.waitForCompletion(true);
        if(res)
            return 0;
        else
            return -1;
    }

    // Map过程
    public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> {
        private final static IntWritable one = new IntWritable(1);
        //private Text word = new Text();
        private int num = 0;
        @Override
        public void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {
            String line = value.toString();
//            System.out.println("file: " + ((FileSplit)context.getInputSplit()).getPath().toString());
//            System.out.println("map " + String.valueOf(num) + ": " + key.toString() + "================" + line);
            num ++;
//            System.out.println(tempValue);


  			String[] words = line.split(" ");
  			for(String word : words){
  				context.write(new Text(word), one);
  			}

//            StringTokenizer tokenizer = new StringTokenizer(line);	//split line to words by space
//            while (tokenizer.hasMoreTokens()) {						//operate all word by loop
//                word.set(tokenizer.nextToken());
//                context.write(word, one);							//write KV to context, word is key, word number is value
//            }
        }
    }

    // Combine过程
    public static class Combine extends Reducer<Text, IntWritable, Text, IntWritable> {
        private int num = 0;
        @Override
        public void reduce(Text key, Iterable<IntWritable> val, Context context)	//mothod for each key,input format key(value1,value2,......)
                throws IOException, InterruptedException {
            int sum = 0;
            Iterator<IntWritable> values = val.iterator();
            while (values.hasNext()) {
                sum += values.next().get();					//sum value(one word count)
            }
            //System.out.print("Combine " + String.valueOf(num) + ": " + key.toString() + "================" + Integer.toString(sum)+ "\n");
            //num ++;
            context.write(key, new IntWritable(sum));		//write one key and its count

        }
    }

    // Reduce过程
    public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {
        private int num = 0;
        @Override
        public void reduce(Text key, Iterable<IntWritable> val, Context context)	//mothod for each key,input format key(value1,value2,......)
                throws IOException, InterruptedException {
            int sum = 0;
            Iterator<IntWritable> values = val.iterator();
            while (values.hasNext()) {
                sum += values.next().get();					//sum value(one word count)
            }
           // System.out.print("Reduce " + String.valueOf(num) + ": " + key.toString() + "================" + Integer.toString(sum)+ "\n");
            //num++;
            context.write(key, new IntWritable(sum));		//write one key and its count
        }
    }
}
### DSI3中的Symbol CountWord Count区别及计算方法 在数据处理和编程环境中,DSI3(Data Stream Interface 3)涉及两种不同的计数方式:symbol countword count。 #### Symbol Count Symbol count 是指在一个特定的数据流中所包含的符号数量。这些符号可以是字符、数字或其他任何定义好的标记单位。对于某些协议来说,这可能意味着单个字节或更复杂的编码单元。例如,在ASCII码表里,每个可打印字符都被视为一个单独的符号[^1]。 ```python def calculate_symbol_count(data_stream): """ 计算给定数据流中的符号总数。 参数: data_stream (str): 输入的数据字符串 返回: int: 符号的数量 """ return len(data_stream) ``` #### Word Count 相比之下,word count 则是指一段文本内单词的数量。通常情况下,“词”的定义取决于具体的应用场景;一般而言,默认是以空白符作为分隔来识别词语边界。然而,在不同上下文中也可能存在其他约定俗成的标准用于界定何谓“一词”。 ```python import re def calculate_word_count(text): """ 使用正则表达式统计输入文本中的单词数目 参数: text (str): 待分析的文字内容 返回: int: 单词的数量 """ words = re.findall(r'\b\w+\b', text.lower()) return len(words) ``` 两者之间主要差异在于计量对象的不同——一个是针对基本组成元素即符号本身进行计数,另一个则是基于更高层次的语言学概念即词汇来进行量化描述。因此,在实际应用当中应当依据具体的业务需求选择合适的度量手段。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值