
hadoop
16:27
这个作者很懒,什么都没留下…
展开
-
mapreduce规约
图解规约主要是为了减少网络传输阶段的负担准备工作准备wordcount.txt,最好数据能重复多一点,能看到其中的效果。规约前规约后,reduce input明显减少java代码WordCountMapper.javaimport org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.原创 2021-04-18 21:31:27 · 211 阅读 · 0 评论 -
mapreduce计数器
计算器主要是在map和reduce阶段定义map Counter counter = context.getCounter("MR_Count", "MapReduceCounter"); //第一个参数是定义名字,第二个也是定义map出现的次数 counter.increment(1L); //1L就是每运行一次map就加1reduce//自定义计算器:使用枚举public static enum MyCount{ REDUCE_INPUT_KEY_RECORDS, REDU原创 2021-04-18 15:26:50 · 232 阅读 · 0 评论 -
排序
图解准备工作1、准备好一个sort.txt文件代码段SortMapper.javaimport org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class SortMapper extends Mapper<LongWritable, T原创 2021-04-17 20:31:26 · 74 阅读 · 0 评论 -
mapreduces分区
图解worldcount.txt 300M的单词文件分成3个块,map类把单词分开固定为1,redueceTask把大于等于5个单词的放一起,其他的放一起,最后算到各自的分区文件中。Java代码编写PartitionerOwn类继承Partitioner进行分区,大于等于5的返回值为0,其他的返回值为1,如果有很多个分区可以在加返回值2、3、4。详情查看Partitioner和HashPartitioner,在idea ctrl+n搜索他们两个查看源代码。具体PartitionerOwn代码rg原创 2021-04-16 21:04:46 · 112 阅读 · 0 评论 -
wordcount
准备工作1、在liunx系统上准备wordcount.txtvi wordcount.txt准备点数据进行计算2、把wordcount.txt上传到hdfs系统上面,hdfs dfs -put /home/hadoop/wordcount /wordcount,路径自己对应好!3、编写java代码进行计算创建一个map类WordCountMapperimport org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.原创 2021-04-16 17:08:49 · 237 阅读 · 0 评论