MapReduce例子

//MapReduce 排序例子


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class Sort {
    //12,3,4,5,6,
   /* 1 3
    2 4*/
   // map key

    public static class SortMap extends Mapper<Object,Text,IntWritable,IntWritable>{
        //
        private static IntWritable data=new IntWritable();
        @Override
        protected  void map(Object key,Text values,Context context) throws IOException, InterruptedException {
         //
            String line=values.toString();
            data.set(Integer.parseInt(line));
            context.write(data,new IntWritable(1));
        }
    }
    public static class SortReduce extends Reducer<IntWritable,IntWritable,IntWritable,IntWritable>{
        private static IntWritable linenum=new IntWritable(1);
        @Override
        protected void reduce(IntWritable key,Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {
            for(IntWritable value:values){
                context.write(linenum,key);
                linenum= new IntWritable(value.get()+1);
            }
        }
    }
    public static int main(String[] args) throws Exception{
        Configuration conf =new Configuration();
        Job job=Job.getInstance(conf);
        job.setJarByClass(Sort.class);

        job.setMapperClass(SortMap.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        //
        job.setReducerClass(SortReduce.class);
        job.setOutputKeyClass(IntWritable.class);
        job.setMapOutputValueClass(IntWritable.class);
        //
        Path inPath =new Path(args[0]);

        FileInputFormat.addInputPath(job,inPath);

        Path outPath=new Path(args[1]);
        FileSystem fs =FileSystem.get(conf);
        if(fs.exists(outPath)){
            fs.delete(outPath,true);
        }
        FileOutputFormat.setOutputPath(job,outPath);

        boolean b = job.waitForCompletion(true);
        return b?1:0;
    }

}
Spark是一个基于内存计算的大数据处理框架,而MapReduce是Hadoop的分布式计算框架。虽然它们都用于处理大规模数据,但在很多方面存在差异。 首先,Spark采用了基于内存的计算模型,这使得它在处理大规模数据时拥有更高的速度和性能。相比之下,MapReduce通常需要将中间结果写入磁盘,这增加了IO开销,并且在迭代计算上性能较低。 其次,Spark提供了更丰富的API,使得开发人员可以更灵活地进行数据处理。它支持多种编程语言,如Java、Scala和Python,并提供了各种高级函数和算法库,如SQL、机器学习和图计算等。相比之下,MapReduce只提供了基本的Map和Reduce函数,并且需要开发人员编写复杂的代码来实现更复杂的数据处理逻辑。 此外,Spark还具备更好的容错性和扩展性。它使用了弹性分布式数据集(RDD)作为基本的数据抽象,并且提供了lineage机制来实现容错处理。另外,Spark还支持在集群上并行执行任务,可以更好地利用集群资源,提高处理效率。 最后,Spark还提供了更灵活的调度和资源管理机制。它可以与各种集群管理器(如YARN、Mesos和Standalone)集成,可以根据需求动态分配资源,并且可以将任务调度到离数据最近的节点,减少数据传输开销。相比之下,MapReduce通常需要手动配置作业和任务,并且不支持动态资源分配。 综上所述,Spark相对于MapReduce具有更高的性能、更丰富的API、更好的容错性和扩展性以及更灵活的调度和资源管理机制。Spark在大规模数据处理方面具有广泛的应用场景,并且正在成为大数据处理的主流框架。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值