
Hadoop
文章平均质量分 90
九度-
资深数据研发工程师
展开
-
hive编译、调度执行原理和Join、group by、distribute by及排序原理
本文首先介绍hive系统架构、编译过程和查询执行流程,接下来介绍hive编译形成的MRjob调度过程和MR原理,最后介绍了常见算子Join、group by、distribute by及排序的原理。一、hive编译和执行1.1 hive系统架构1.2hive编译过程1.3hive查询执行流程二、job调度Application在Yarn中的执行过程,如需了解详细执行过程请点击:Yarn的执行过程细分三、job执行引擎(MapReduce原理)MapRedu..原创 2021-05-04 15:23:19 · 1755 阅读 · 1 评论 -
Hive基本语法、基本原理和优化方法
背景为方便很多新同学的学习,介绍企业常用的hive工具,帮助大家快速的融入。一、Hive简介1.1 怎么来Facebook有一帮人牛人觉得写MapReduce任务太费事了,然后搞了一个支持类SQL开发工具,把sql转化为MapReduce任务,并发执行。1.2 是什么基于Hadoop的一个数据仓库工具;结构化数据映射成表,通过类SQL语言查询和分析数据,称为HiveQL(HQL);Hive将SQL编译转化为MapReduce job,通过Hadoop集群执行。如下如:hive原创 2021-04-28 20:40:59 · 3187 阅读 · 0 评论 -
Hadoop和Spark区别,为什么Spark比Hadoop处理速度快?
h s 原理 (并行计算 MR原理) Hadoop作业称为Job,Job分为Map、Shuffle和Reduce阶段,MAP和Reduce的Task都基于JVM进程运行的。MAP阶段:从HDFS读取数据,split文件产生task,通过对应数量的map处理,map输出的每一个键值对通过key的hash值计算一个partition,数据通过环形缓冲区,sort、spill、merge生成data和...原创 2021-04-20 20:36:31 · 1960 阅读 · 0 评论 -
Yarn的基本工作流程
Yarn基本工作流程图和步骤解释原创 2017-07-15 23:11:33 · 2667 阅读 · 0 评论 -
MapReduce过程详解及其性能优化
废话不说直接来一张图如下:从JVM的角度看Map和ReduceMap阶段包括:第一读数据:从HDFS读取数据1、问题:读取数据产生多少个Mapper?? Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟机的,过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的硬件资源; Mapper数太小,并发度过小,Job执行时间过长,无...原创 2017-05-16 21:40:07 · 41830 阅读 · 18 评论