
大数据
文章平均质量分 83
black_hnu
开始做点小笔记,如有错误,请多多指正lively0_0@hnu.edu.cn
展开
-
Hive本地模式安装和配置(官网简单翻译)
安装步骤据官网简单翻译:(我部署的本地模式,按照官网的部署成功了,参照网上的步骤都没成功。在命令行运行hive时候一直报错)1、RequirementsJava 1.7Note: Hive versions 1.2 onward require Java 1.7 or newer. Hive versions 0.14 to 1.1 work with Java 1.6 as well....原创 2018-08-27 15:08:26 · 1061 阅读 · 0 评论 -
Hadoop系列之原理与架构
一、Hadoop项目架构Hadoop框架是用来解决数据离线批处理问题的框架,其中最核心的是HDFS和MapReduce,HDFS是架构在Hadoop之上的分布式文件系统,MapReduce是架构在Hadoop之上用来做计算的框架。hadoop两个核心:HDFS和MapReduce用途:解决分布式存储和分布式存储。特点:高可靠性、高效性、可扩展性、成本低(普通PC机都能构建集群)...原创 2018-09-03 10:12:33 · 12997 阅读 · 0 评论 -
Hadoop原理之Yarn资源管理
Yarn设计思路、体系结构、工作流程对比分析MapReduce1.0MapReduce1.0的缺陷1、单点故障:只有一个JobTracker负责整个作业的管理调度2、JobTracter包揽一切,很容易导致出现故障,对MapReduce1.0做集群时只能有4000个节点。3、容易出现内存溢出:只看任务数,不看每个任务消耗多少资源4、资源划分不合理:打包后分成很多slot...原创 2018-09-03 10:19:27 · 578 阅读 · 0 评论 -
Hadoop原理之HDFS
一、重要概念:分区存储,分布式解决的问题:两大核心分布式存储、分布式处理实现的目标:兼容廉价的硬件设备、实现流数据读写、支持大数据集、支持简单的文件模型、跨平台的平台兼容性自身局限性:1、不适合低延迟数据访问,高吞吐量,无法高效存储大量小文件 ...原创 2018-09-03 10:34:08 · 279 阅读 · 0 评论 -
Hadoop之MapReduce
一、概述对比传统的并行编程框架四个方面:集群的架构和容错性(一个节点故障前者会导致整个集群不工作后者不会)、硬件价格及扩展性(后者仅需要廉价的PC机即可)、编程和学习难度(前者难后者易)、适用场景大数据分布式并行处理技术MapReduce,批处理模式的典型代表。批处理:MapReduce、Spark(可以做迭代计算)spark支持迭代计算,这是与MapReduce最大的不同。实...原创 2018-09-03 10:41:18 · 286 阅读 · 0 评论 -
Hive从概念到原理
Hive是一个数据仓库基础工具,它是建立在Hadoop之上的数据仓库,在某种程度上可以把它看做用户编程接口(API),本身也并不存储和处理数据,依赖于HDFS存储数据,依赖MR处理数据。它提供了一系列对数据进行提取、转换、加载的工具。依赖于HDFS存储数据,依赖MR处理数据。在Hadoop中用来处理结构化数据。Hive查询语言采用Hive为MapReduce处理结构化数据。Hive不是实时查询语言...原创 2018-09-03 10:51:27 · 2179 阅读 · 0 评论 -
spark原理:概念与架构、工作机制
一、Hadoop、Spark、Storm三大框架比较Hadoop:离线海量数据批处理,基于磁盘的Spark:基于内存。Spark特点:运行速度快,使用DAG执行引擎以支持循环数据流与内存计算,2、容易使用:多种语言编程,通过spark shell进行交互式编程3、通用性:提供了完整而强大的技术栈,包括sQL查询、流式计算、机器学习和图算法组件4、运行模式多样:可运行在独立集...原创 2018-09-03 11:05:37 · 21561 阅读 · 1 评论 -
Spark RDD
At a high level, every Spark application consists of a driver program that runs the user’s main function and executes various parallel operations on a cluster. 来自 <http://spark.apache.org/docs/la...原创 2018-09-03 11:07:31 · 190 阅读 · 0 评论 -
Spark工作机制
内部运行机制任务分配、IO模块、通信控制模块、容错模块、Shuffle模块。采用的算法:FIFO、FIAR算法,通信采用AKKA框架1、spark执行机制:spark应用提交后经历了一系列转换最后成为Task在每个节点上执行。大体的执行流程:RDD的Actions操作除非Job的提交,提交到spark中的job生成RDD DAG,由DAG Scheduler转换为stage中的ta...原创 2018-09-03 11:11:37 · 2901 阅读 · 0 评论