- 博客(29)
- 收藏
- 关注
原创 Hive-复习总结
Hive介绍Hive概述Hive是基于Hadoop的一个数据仓库工具。可以键结构化的数据文件映射为一张表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行。其优点是学习成本低,可以通过类SQL语句快速实现MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,...
2019-01-21 20:49:23
1087
原创 Flume--复习总结
概述Flume最早是Cloudera提供的日志收集系统,后贡献给Apache。flume支持在日志系统中定制各类数据发送方,用于收集数据。Flume是一个高可用、高可靠的,分布式的海量的日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据(source),Flume提供对数据进行简单处理并写到各种 数据接收烦恼歌(可定制)的能力(sink)、系统需求: jd...
2019-01-21 15:24:12
459
原创 Hadoop--复习总结
Hadoop简介Hadoop是Apache的顶级项目是一个可靠的、可扩展的、支持分布式计算的开源项目。历史创始人是:Doug Cutting 和MikeHadoop中的HDFS源于2003年Google发表的论文:《Google File System》Hadoop中的MapReduce源于2003年Google发表的另一篇论文:《Google mapReduce》Hadoop的模块...
2019-01-17 19:19:36
395
原创 zookeeper--复习总结
zookeeper的概念zookeeper是开源的分布式的协调服务框架,是Apache Hadoop的自建,适用于绝大部分分布式集群的管理分布式引发的问题1.死锁:至少有一个线程占用了资源,但是不占用CPU2.活锁:所有线程都没有把持资源,但是线程却在不断地调度占用CPU3.需要引入一个管理节点4.防止单一入口的单点问题,需要引入管理节点的集群5.需要在管理阶段选举出一个主节点6....
2019-01-17 10:05:01
223
原创 Concurrent包--复习总结
concurrent包concurrent包是jdk1.5提供的一个针对高并发进行编程的包BlockingQueue阻塞式队列:遵循先进先出的原则,阻塞式队列本身使用过的时候是需要指定界限的。ArrayBlockingQueue-阻塞式顺序队列–底层是基于数组来存储的时运的时候需要指定一个容量,容量在指定之后不可改变。应用为:生成-消费者模型linkedBlockingQueue-阻塞式...
2019-01-16 19:45:11
346
原创 NIO--复习总结
NIO的概念NIO是jdk1.4出现的新的流,Nio包含三个基本组件:buffer-缓冲区、channel-通道、selector-多路复用选择器对比:BIO: Blocking IO-同步阻塞式IO–UDP/TCPNIO:New IO-同步非阻塞式IOAIO:Asynchronous IO-异步非阻塞式IO-jdk1.8新出现的IOBIO的缺点:1.receive/accept/c...
2019-01-15 20:07:49
216
原创 Hadoop之yarn
yarn的理解yarn是Hadoop提供的一个用于进行资源调度和任务管理的框架。注意:1.如果有多个task,那么会scheduler中形成资源队列,队列中存储的是Container2.如果资源队列已满,这个时候来的新任务会被阻塞3.如果多个任务同时申请资源,那么一般默认MapTask优先申请4.一个节点中会有一个NodeManager,意味着一个NodeManage将会执行不止一...
2018-12-26 14:28:40
256
原创 Hadoop之MapReduce
MapReduce的执行流程MapReduce是hadoop的计算框架。其中shuffle过程是其核心,但是要了解shuffle过程必须先了解MapReduce的执行流程。Map任务1.读取输入文件的内容,解析成key-value对,对输入的文件的每一行解析成key-value对。每一个键值对调用一次map函数。2.执行自定义逻辑,对输入的键值对进行处理,转换成新的键值对输出。3.对输出...
2018-12-26 14:20:14
230
原创 Hadoop之HDFS
HDFS的简介HDFS介绍:HDFS(Hadoop Distributed File System)是hadoop中分布式文件系统,是hadoop中用于数据存储的模块,在存储数据时会对数据进行切块,每一个切块是一个block,hadoop2.0中默认每一个切块的大小时128M,而且HDFS会对每一个切块进行备份,备份称为副本,全分布式下默认的副本数量是3,伪分布式下副本数量要设置为1,副本的放...
2018-12-20 20:56:49
1022
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人