
MapReduce
文章平均质量分 76
一纸春秋
张鼎元的博客。
展开
-
2021年安徽省大数据与人工智能应用竞赛——MapReduce(数据预处理)题目解答(第三题)
前两题的链接2021年安徽省大数据与人工智能应用竞赛——MapReduce(数据预处理)题目解答2021年安徽省大数据与人工智能应用竞赛——MapReduce(数据预处理)题目解答(第二题)请使用MapReduce统计 calls.txt中的 被叫省份中 被叫次数最高的前三条记录返回格式:省 ,被叫号码,被叫次数数据calls.txt 通话记录样例:18620192711,15733218050,1506628174,1506628265,650000,810000字段分别为:呼叫者手机号,原创 2021-11-28 23:31:38 · 2397 阅读 · 4 评论 -
2021年安徽省大数据与人工智能应用竞赛——MapReduce(数据预处理)题目解答(第二题)
第一题链接2021年安徽省大数据与人工智能应用竞赛——MapReduce(数据预处理)题目解答题目:请使用MapReduce统计 calls.txt中的每个手机号码的,呼叫时长和呼叫次数,被叫时长,被叫次数 ,并输出格式 为 手机号码,呼叫时长,呼叫次数,被叫时长,被叫次数;calls.txt 通话记录样例:18620192711,15733218050,1506628174,1506628265,650000,810000字段分别为:呼叫者手机号,接受者手机号,开始时间戳,结束时间戳,呼叫者地原创 2021-11-27 00:38:08 · 2777 阅读 · 0 评论 -
2021年安徽省大数据与人工智能应用竞赛——MapReduce(数据预处理)题目解答
数据格式calls.txt呼叫者手机号,接受者手机号,开始时间戳,结束时间戳,呼叫者地址省份编码,接受者地址省份编码18620192711,15733218050,1506628174,1506628265,650000,810000userPhone.txtid,省份编码,省份名称13,15733218050,杜泽文location.txt1,110000,北京市具体代码1. 将电话号码替换成人名知识点:map side joinsubString字符串切分我在之前写原创 2021-11-24 23:08:50 · 2708 阅读 · 1 评论 -
MapReduce笔记 —— reduce side join 和 map side join
首先是要进行连接的两张表,这里是以 .txt文件的形式来保存表的数据,分别是students.txt和score.txtstudents文件的格式举例score文件的格式举例students文件中,一个 id 对应一行学生信息score文件中,一个id对应多行的学科成绩,因为科目不同reduce side join现在需求是输出学生的信息,以及学生的各科成绩总和mapreduce代码为package Demo.mr;import org.apache.hadoop.fs.Path;原创 2021-11-22 22:16:14 · 1245 阅读 · 0 评论 -
MapReduce笔记 —— 手动设置多个ReduceTask以及设置Combiner(两种方式运行MapReduce)
目录手动设置多个ReduceTask在idea中启动MapReduce手动设置Combiner通过jar包在linux终端执行手动设置多个ReduceTask先来看只有一个ReduceTask时的词频统计的结果当没有手动设置ReduceTask的数量时,默认只有一个reduceTask数据为package Demo.mr.WordCount;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWri原创 2021-11-21 22:59:07 · 2201 阅读 · 0 评论 -
MapReduce笔记 —— shuffle阶段的运行原理
这张图片是我从林子雨老师的ppt上面截下来的输入:框架使用InputFormat类的子类把输入文件(夹)划分为很多InputSplit,通常默认是每个HDFS的block对应一个InputSplit。通过RecordReader类,把每个InputSplit解析成一个个<k1,v1>。默认,框架对每个InputSplit中的每一行,解析成一个<k1,v1>注1:k1就是行偏移量,v1就是一行的内容。Map:这阶段是进行Map任务,也就是程序中的Mapper实现类。接收上原创 2021-11-20 20:46:31 · 1195 阅读 · 0 评论