迷茫的小矮人-优快云博客

原创 Hive-复习总结

Hive介绍Hive概述Hive是基于Hadoop的一个数据仓库工具。可以键结构化的数据文件映射为一张表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行。其优点是学习成本低，可以通过类SQL语句快速实现MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，...

2019-01-21 20:49:23 1087

原创 Flume--复习总结

概述Flume最早是Cloudera提供的日志收集系统，后贡献给Apache。flume支持在日志系统中定制各类数据发送方，用于收集数据。Flume是一个高可用、高可靠的，分布式的海量的日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据（source），Flume提供对数据进行简单处理并写到各种数据接收烦恼歌（可定制）的能力（sink）、系统需求： jd...

2019-01-21 15:24:12 459

原创 Hadoop--复习总结

Hadoop简介Hadoop是Apache的顶级项目是一个可靠的、可扩展的、支持分布式计算的开源项目。历史创始人是：Doug Cutting 和MikeHadoop中的HDFS源于2003年Google发表的论文：《Google File System》Hadoop中的MapReduce源于2003年Google发表的另一篇论文：《Google mapReduce》Hadoop的模块...

2019-01-17 19:19:36 395

原创 zookeeper--复习总结

zookeeper的概念zookeeper是开源的分布式的协调服务框架，是Apache Hadoop的自建，适用于绝大部分分布式集群的管理分布式引发的问题1.死锁：至少有一个线程占用了资源，但是不占用CPU2.活锁：所有线程都没有把持资源，但是线程却在不断地调度占用CPU3.需要引入一个管理节点4.防止单一入口的单点问题，需要引入管理节点的集群5.需要在管理阶段选举出一个主节点6....

2019-01-17 10:05:01 223

原创 Concurrent包--复习总结

concurrent包concurrent包是jdk1.5提供的一个针对高并发进行编程的包BlockingQueue阻塞式队列：遵循先进先出的原则，阻塞式队列本身使用过的时候是需要指定界限的。ArrayBlockingQueue-阻塞式顺序队列–底层是基于数组来存储的时运的时候需要指定一个容量，容量在指定之后不可改变。应用为：生成-消费者模型linkedBlockingQueue-阻塞式...

2019-01-16 19:45:11 346

原创 NIO--复习总结

NIO的概念NIO是jdk1.4出现的新的流，Nio包含三个基本组件：buffer-缓冲区、channel-通道、selector-多路复用选择器对比：BIO: Blocking IO-同步阻塞式IO–UDP/TCPNIO:New IO-同步非阻塞式IOAIO：Asynchronous IO-异步非阻塞式IO-jdk1.8新出现的IOBIO的缺点：1.receive/accept/c...

2019-01-15 20:07:49 216

原创 Hadoop之yarn

yarn的理解yarn是Hadoop提供的一个用于进行资源调度和任务管理的框架。注意：1.如果有多个task，那么会scheduler中形成资源队列，队列中存储的是Container2.如果资源队列已满，这个时候来的新任务会被阻塞3.如果多个任务同时申请资源，那么一般默认MapTask优先申请4.一个节点中会有一个NodeManager，意味着一个NodeManage将会执行不止一...

2018-12-26 14:28:40 256

原创 Hadoop之MapReduce

MapReduce的执行流程MapReduce是hadoop的计算框架。其中shuffle过程是其核心，但是要了解shuffle过程必须先了解MapReduce的执行流程。Map任务1.读取输入文件的内容，解析成key-value对，对输入的文件的每一行解析成key-value对。每一个键值对调用一次map函数。2.执行自定义逻辑，对输入的键值对进行处理，转换成新的键值对输出。3.对输出...

2018-12-26 14:20:14 230

原创 Hadoop之HDFS

HDFS的简介HDFS介绍：HDFS（Hadoop Distributed File System）是hadoop中分布式文件系统，是hadoop中用于数据存储的模块，在存储数据时会对数据进行切块，每一个切块是一个block，hadoop2.0中默认每一个切块的大小时128M，而且HDFS会对每一个切块进行备份，备份称为副本，全分布式下默认的副本数量是3，伪分布式下副本数量要设置为1，副本的放...

2018-12-20 20:56:49 1022