
Hadoop
black_hnu
开始做点小笔记,如有错误,请多多指正lively0_0@hnu.edu.cn
展开
-
Hadoop系列之原理与架构
一、Hadoop项目架构Hadoop框架是用来解决数据离线批处理问题的框架,其中最核心的是HDFS和MapReduce,HDFS是架构在Hadoop之上的分布式文件系统,MapReduce是架构在Hadoop之上用来做计算的框架。hadoop两个核心:HDFS和MapReduce用途:解决分布式存储和分布式存储。特点:高可靠性、高效性、可扩展性、成本低(普通PC机都能构建集群)...原创 2018-09-03 10:12:33 · 12996 阅读 · 0 评论 -
Hadoop原理之Yarn资源管理
Yarn设计思路、体系结构、工作流程对比分析MapReduce1.0MapReduce1.0的缺陷1、单点故障:只有一个JobTracker负责整个作业的管理调度2、JobTracter包揽一切,很容易导致出现故障,对MapReduce1.0做集群时只能有4000个节点。3、容易出现内存溢出:只看任务数,不看每个任务消耗多少资源4、资源划分不合理:打包后分成很多slot...原创 2018-09-03 10:19:27 · 578 阅读 · 0 评论 -
Hadoop原理之HDFS
一、重要概念:分区存储,分布式解决的问题:两大核心分布式存储、分布式处理实现的目标:兼容廉价的硬件设备、实现流数据读写、支持大数据集、支持简单的文件模型、跨平台的平台兼容性自身局限性:1、不适合低延迟数据访问,高吞吐量,无法高效存储大量小文件 ...原创 2018-09-03 10:34:08 · 279 阅读 · 0 评论 -
Hadoop之MapReduce
一、概述对比传统的并行编程框架四个方面:集群的架构和容错性(一个节点故障前者会导致整个集群不工作后者不会)、硬件价格及扩展性(后者仅需要廉价的PC机即可)、编程和学习难度(前者难后者易)、适用场景大数据分布式并行处理技术MapReduce,批处理模式的典型代表。批处理:MapReduce、Spark(可以做迭代计算)spark支持迭代计算,这是与MapReduce最大的不同。实...原创 2018-09-03 10:41:18 · 286 阅读 · 0 评论 -
Hive从概念到原理
Hive是一个数据仓库基础工具,它是建立在Hadoop之上的数据仓库,在某种程度上可以把它看做用户编程接口(API),本身也并不存储和处理数据,依赖于HDFS存储数据,依赖MR处理数据。它提供了一系列对数据进行提取、转换、加载的工具。依赖于HDFS存储数据,依赖MR处理数据。在Hadoop中用来处理结构化数据。Hive查询语言采用Hive为MapReduce处理结构化数据。Hive不是实时查询语言...原创 2018-09-03 10:51:27 · 2179 阅读 · 0 评论