hive学习之wordcount单词统计

最新推荐文章于 2024-05-07 07:00:00 发布

原创最新推荐文章于 2024-05-07 07:00:00 发布 · 979 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#string #数据仓库 #hadoop #存储 #exception #output

Hadoop 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了如何使用Hive进行单词统计，从创建数据表到导入数据，再到解析HQL生成MR任务。通过实例展示了Hive在处理半结构化数据时的步骤，同时指出Hive在小数据量和在线服务中的性能局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

单词统计相当于编程开始的HELLO WORLD。应该都跑过。假设这里有一个文档，里面有两行这样的话：

Hello World Bye World

Hello Hadoop GoodBye Hadoop

最终要显示的结果如下：

程序如下：

Map：

public class MapClass extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {

     private final static IntWritable one = new IntWritable(1);
     private Text word = new Text();

     public void map(LongWritable key, Text value, 
                     OutputCollector<Text, IntWritable> output, 
                     Reporter reporter) throws IOException {
         String line = value.toString();
         StringTokenizer itr = new StringTokenizer(line);
         while (itr.hasMoreTokens()) {
             word.set(itr.nextToken());
             output.collect(word, one);
        }
    }
}

Reduce：

public class Reduce extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> {

    public void reduce(Text key, Iterator<IntWritable> values, 
                       OutputCollector<Text, IntWritable> output, 
                       Reporter reporter) throws IOException {
       int sum = 0;
       while (values.hasNext()) {
           sum += values.next().get();
       }
       output.collect(key, new IntWritable(sum));
   }

}

客户端：

public class WordCount {
   public static void main(String[] args) throws Exception {
      JobConf conf = new JobConf(WordCount.class);
      conf.setJobName("wordcount");

      conf.setOutputKeyClass(Text.class);
      conf.setOutputValueClass(IntWritable.class);

      conf.setMapperClass(Map.class);
      conf.setCombinerClass(Reduce.class);
      conf.setReducerClass(Reduce.class);

      conf.setInputFormat(TextInputFormat.class);
      conf.setOutputFormat(TextOutputFormat.class);

      FileInputFormat.setInputPaths(conf, new Path(args[0]));
      FileOutputFormat.setOutputPath(conf, new Path(args[1]));
      JobClient.runJob(conf);
   }
}

以上是传统的MR程序。现在，我们可以利用hive来做这样的事。

hive的介绍就不多说了，是个数据仓库，可以存储结构化、半结构化的的数据，例子中的文本就是一个半结构化的数据，我们可以将其中的两条字符串通过hive变成数据表中的两条记录。

进入数据仓库(hive)的途径可以是HDFS里的数据也可以是本地数据，可以使用这样的语句，本例中我是将HDFS里的数据导入到hive中的。

在导入之前需要创建一个表，如图：

这里创建了表textlines，这个表就是用来存储从导入进来的文件，字段可以自己设置，表明存储什么内容，我这里存储的就是一条字符串