
mapreduce
yc_hen
为了让明天的我 超越昨天的我,所以今天的我需要努力
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MAP/REDUCE-map-reduce详解
MapReduce是什么? Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。 这个定义里面有着这些关键词: 一是软件框架,二是并行处理,三是可靠且容错,四是大规模集群,五是海量数据集。 MapReduce做什么? MapReduce擅...原创 2019-02-11 10:34:55 · 1342 阅读 · 0 评论 -
MAP/REDUCE-shuffle流程简单概述
我简单地将shuffle流程分成以下两部分: map task 程序会根据InputFormat将输入文件分割成splits,每个split会作为一个map task的输入,每个map task会有一个内存缓冲区,输入数据经过map阶段处理后的中间结果会写入内存缓冲区(环形缓冲区,这个暂时就不深入了),并且决定数据写入到哪个partitioner,当写入的数据到达内存缓冲区的的阀值(默认是0.8...原创 2019-02-11 11:12:26 · 521 阅读 · 0 评论 -
HIVE-Hive的简单概述
什么是Hive? Hive是一种构建数据仓库的工具。里面有表的概念。 在Mysql里从表中插入的数据,会放在磁盘上。再打开这个表的时候,会把磁盘上的数据规整到一个表格里显示。 但是计算机不会自己规整成表格,所以在Hive中需要一份元数据 这份元数据包括: 元数据( 行的分隔符(这样在映射成表的时候知道能映射成几行) 字段分隔符(这样在映射成表的时候知道能映射成几列) 字段的类型 字段的名称 ) ...原创 2019-02-17 10:19:11 · 337 阅读 · 0 评论