
hadoop学习
文章平均质量分 59
Carroll_HY
到处飘的搬砖工
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flume基础概述
Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。Flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中 运行机制Flume的核心就是一个agent,这个agent对外有两个进行交互的地方,一个是接受数据的输入——source原创 2017-11-28 17:23:45 · 483 阅读 · 0 评论 -
Flume多节点的搭建
在前面的blog中,我们在5台虚拟机中搭建了flume的单节点,这篇博客主要讲述搭建flume-ng。 -5台虚拟机 -apache-flume-1.6.0-bin.tar.gz1、在master节点上,解压压缩包到/usr/local下面tar -zxvf apache-flume-1.6.0-bin.tar.gz flume-1.7 mv flume-1.7 /usr/local/2、配置环境原创 2017-11-28 18:32:00 · 1825 阅读 · 0 评论 -
Spark内核:RDD基础
RDD产生的背景MR程序每个hadoop作业都是从物理存储上加载数据,然后操作数据进行运算,最后写入到物理存储设备中。但是这样的话就无法复用曾经的计算结果或中间计算结果等。Hadoop每次作业多从磁盘上读写数据而且第二次作业的时候会再次从磁盘上读写数据。MR对两种应用的处理并不是很高效,一个是因为需要大量迭代的算法(图计算和机器学习),另一个是交互式数据挖掘工具(重复采集一个数据子集)。基于这两种情原创 2017-12-21 11:16:12 · 386 阅读 · 0 评论 -
Spark内核:RDD的算子
RDD的算子一般来说,RDD的整个计算过程都是发生在Worker节点中的Executor中的。RDD可以支持三种操作类型:Transformation、Action以及Persist和CheckPoint为代表的控制类型操作。RDD一般是从外部数据源读取数据的,经过多次的Transformation(中间应该有Persist和CheckPoint操作),最终通过Action类型的操作将结果写入到外部原创 2017-12-22 10:18:50 · 401 阅读 · 0 评论 -
Spark Standalone模式搭建
Spark三种模式 local on yarn standalone spark的local模式不多做说明,on yarn模式就是将资源管理交给hadoop的yarn,自己本身只做计算与任务调度。而standalone则是自己本身成为一套系统,有自己的资源管理与调度器。 本篇博客主要讲述在虚拟机中搭建spark 集群(standalone),其主要采用Master/Slave(Worker)结构.原创 2017-12-07 11:13:40 · 2975 阅读 · 2 评论