MapReduce
MapReduce
睡覺了
Everything is Object 我现在能做的,便是以一段拙劣的文字来祭奠我那段流逝的岁月
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Review MapReduce
计算框架是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。MapReduce计算框架 并行计算框架一个大的任务拆分成多个小任务,将多个小任务分发到多个节点上。每个节点同时执行计算Hadoop为什么比传统技术方案快1、分布式存储2、分布式并行计算3、节点横向扩展4、移动程序到数据...原创 2020-04-11 08:23:32 · 7951 阅读 · 1 评论 -
大数据离线流程(小练习)
原始数据:LZi2ryWsShY!lovejoy71!433!People & Blogs!111!47234!4.94!65!32!9G3rVGW4JrI!UnfbKKvUG9Q!753jCzdr_4w!QwNb2WZu8hE!0KyD0ZA2RRY!T6_91j86v5I!yJDPn0sPgus!uz50jqNcHRw!cFQUvZD8X0w!kHkdIiadj7E!Y0cHBgz...原创 2020-01-09 08:46:09 · 7494 阅读 · 0 评论 -
MapReduce数据练习
原始数据:qR8WRLrO2aQ:mienge:406:People & & 号 左右 各有一个空格 Blogs:599:2788:5:1:0:4UUEKhr6vfA:zvDPXgPiiWI:TxP1eXHJQ2Q:k5Kb1K0zVxU:hLP_mJIMNFg:tzNRSSTGF4o:BrUGfq...原创 2020-01-03 08:31:12 · 8258 阅读 · 0 评论 -
MapRduce 处理数据
使用 java 代码 来进行 分割后的 数据预处理1.arraycopy() 方法函数: arraycopy(Object src, int srcPos, Object dest, int destPos, int length)src: 原数组 srcPos:原数组起始的位置dest:目的数组 ...原创 2020-01-02 21:26:40 · 8217 阅读 · 0 评论 -
MapReduce算法(解析s1u文件。提取数据中相同IMSI的数据中,URI里面含有经纬度的行,生成过滤后的文件。)
需求:解析s1u文件。提取数据中相同IMSI的数据中,URI里面含有经纬度的行,生成过滤后的文件。需求说明:数据:2604|731|11|fe58db650a0fc025d900000000010000|6|460077074895837|8618370354398412|15773123855|1|100.78.245.86|100.78.51.76|2152|2152|6722...原创 2019-12-21 22:35:30 · 8855 阅读 · 0 评论 -
MapReduce算法(计算每个相同IMSI(国际移动用户标识)、TAC(跟踪区域码)的上行流量和,下行流量和,总流量和)
需求:计算每个相同IMSI(国际移动用户标识)、TAC(跟踪区域码)的上行流量和,下行流量和,总流量和。需求说明:将S1U数据里面的VOLUME字段(数据流量)和IMSI、TAC两个字段提取出来,并且按相同IMSI、TAC对VOLUME求和(上行流量和、下行流量和、总流量的和)。其结果保存为新的文件。数据:2604|731|11|fe58db672c0fdf509b000000...原创 2019-12-20 09:27:44 · 11369 阅读 · 0 评论 -
MapReduce算法(将数据按照 /OutputData/城市名称/日期(YYYY-MM-dd)/类型(固定Gn)/imsi.txt )
需求:现有部分GN数据,数据为全省数据,解析GN数据,将数据按照 /OutputData/城市名称/日期(YYYY-MM-dd)/类型(固定Gn)/imsi.txt (有很多imsi)的结构,将相同城市,相同日期,相同imsi(国际移动用户标识),类型为Gn的数据汇总到一起,。解析出新的IMSI, VULUME、CELLID、TAC、city、time数据:1|460002452...原创 2019-12-20 09:26:37 · 9631 阅读 · 0 评论 -
MapReduce算法(计算出10月1日这天载客次数超过10次的车辆,载客总次数,载客详细时间。)
需求 :计算出10月1日这天载客次数超过10次的车辆,载客总次数,载客详细时间。package CzC.demo03;import CzC.demo02.TaxiCsDriver;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache...原创 2019-12-20 09:22:57 · 8177 阅读 · 0 评论 -
MapReduce算法(计算出10月1日这天全天停运的车辆,)
需求 :计算出10月1日这天全天停运的车辆package CzC.demo03;import CzC.demo02.TaxiCsDriver;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;im...原创 2019-12-20 09:21:53 · 8131 阅读 · 1 评论 -
MapReduce算法(计算出10月1日这天超速(超过120)的车辆,超速的次数,超速的详细时间)
需求 :计算出10月1日这天超速(超过120)的车辆,超速的次数,超速的详细时间package CzC.demo02;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apac...原创 2019-12-20 09:21:02 · 8583 阅读 · 0 评论 -
MapReduce算法(计算出10月1日这天每小时的载客量)
需求: 计算出10月1日这天每小时的载客量第一个 Driver classpackage CzC.demo01;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apac...原创 2019-12-20 09:20:04 · 7469 阅读 · 0 评论 -
MR案例 之 重复数据处理
1 数据:2 需求:使用MR 算法 将相同 手机号 的数据整理到一个文本中,文本 名称为 手机号。3 代码实现 :package Test02;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io....原创 2019-11-14 19:41:59 · 7389 阅读 · 0 评论 -
MapReduce算法步骤
计算步骤 :第1步:InputFormatInputFormat到 hdfs 上 读取数据将 数据 传给Split第2步:SplitSplit 将数据 进行 逻辑切分, 将数据 传给RR 第3步:RRRR: 将传入的 数据 转换成 一行一行 的数据,输出行首字母偏移量和 偏移量对应的数据 将数据 传给MAP (偏移量:每个字符移动到当前文档的...原创 2019-11-14 20:35:27 · 7750 阅读 · 0 评论 -
MapReduce核心思想
核心思想 :分而治之,先分后和:将一个大的、复杂的工作或任务,拆分成多个小的任务,并行处理,最终 进行合并。 MapReduce 由 Map 和 Reduce 组成 Map :将 数据 进行 拆分 Reduce:对数据 进行 汇总...原创 2019-11-15 08:22:06 · 7033 阅读 · 0 评论 -
Map输出 和 Reduce读取
Map的输出:Map的输出到内存: Map的 输出 先写入环形缓冲区(默认大小100M-可以人为调整)(可以再输出的同时写入数据), 当缓冲区内的数据 达到阈值(默认0.8-可以人为调整)时,对数据进行flash。 flash 出去的 数据的 数量达到一定量(默认4个)时,进行数据的合并。Reduce数据读取 :Reduce 主动 发出 拷贝...原创 2019-11-15 08:38:18 · 7040 阅读 · 0 评论 -
Map到Reduce的两大流程
Map到reduce内存角度宏观流程:Map到reduce处理流程角度宏观步骤:原创 2019-11-15 08:40:37 · 6759 阅读 · 0 评论 -
MR 案例 之 获取文件名称
1 数据:2 需求:获取文件名称 以及 内容3 代码实现:Map 代码 :package demo01;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org....原创 2019-11-18 09:25:08 · 6833 阅读 · 0 评论 -
MR 之 压缩文件
压缩 snappy 格式1 数据 :2 需求 :在 hadoop 集群上 压缩 为 : /part-r-00000.snappy3 代码实现:Map 代码 :package demo01;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org...原创 2019-11-18 10:31:09 · 6629 阅读 · 0 评论 -
自定义inputFormat && outputFormat
代码实现Custom_RecordReader:package demozdy;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.ha...原创 2019-11-18 20:42:30 · 6898 阅读 · 0 评论 -
MR 之 多个小文件合并
1 数据: 两个 小文件2 需求:将这 两个小文件 合并3 代码实现:① 自定义 :Custom_FileInputFormatpackage demozdy;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.BytesWritable;import org.apache.h...原创 2019-11-19 17:59:16 · 7512 阅读 · 0 评论 -
MR 之 内容分类并创建多个文件夹
1 数据:2 需求:数字 0 代表 好评 数字 1 代表 中评 数字 2 代表 差评 (将 好评 全部放到 一个 txt 文件) (将中评 和 差评 全部 放到一个 txt 文件)3 代码实现:①自定义 :Custom_OutPutFromatpac...原创 2019-11-19 18:14:43 · 6447 阅读 · 0 评论 -
Map 的 join 算法
目录1 数据需求 : 做 map 端的 join 最终展现:2 实现代码:MapJoinMap:package com.MapJion;import org.apache.hadoop.filecache.DistributedCache;import org.apache.hadoop.fs.FSDataInputStream;import org....原创 2019-11-28 08:02:54 · 9240 阅读 · 0 评论 -
Reduce 的 Join 算法
目录1 数据 需求:2 实现代码:bean:package demo02;import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * Created by 一个蔡狗 on 2...原创 2019-11-28 08:04:09 · 7595 阅读 · 0 评论 -
MR 案例 之WordCount
1 :数据zhangsan,lisi,wangwuzhaoliu,maqizhangsan,zhaoliu,wangwulisi,wangwu2 : 需求需求:在给定的 文本文件 中 统计输出 每一个单词 出现 的 总次数3 :结果期望的最终 zhangsan 2 lisi 2 wangwu 3 zhaoliu 2 maqi 14 :逻辑分析...原创 2019-11-28 08:04:25 · 7802 阅读 · 1 评论
分享