
hadoop
文章平均质量分 65
限量版的王老吉
每天进步一点点 以后的你会感激现在拼命的自己
展开
-
hadoop2.x --- yarn 概念 笔记
hadoop的由来,发展历程就不bbbbbb啦。网上随便一下,比较多。hadoop2.x 为什么会有yarn?要追溯到hadoop1.0时代。可以做一个总结: 下面给出hadoop1.0和hadoop2.x之间的一个形象图 可以看出,hadoop2.x 发生了比较大的变化,hadoop通过一个zookeeper的方式对namenode做了一个故障转移,可以规避namenode挂掉之后导致的数据原创 2017-12-21 09:25:53 · 279 阅读 · 0 评论 -
hadoop 环境集群安装
版本:centos7 hadoop2.6.1设备: 三台虚拟机单机版本的和伪集群方式就不搭建了。直接在本机上面搭载集群。 由于是新弄得centos7系统,上面是空的,gcc也没有。需要yum安装一些常用的东西。原创 2017-12-17 15:12:57 · 235 阅读 · 0 评论 -
storm 中 work executor task关系
先来一个图,看看storm的架构 这个架构很明显能看出来,有主有从,中间靠着zk进行一些联系和调度,然后主它主要的工作就是用一个资源分配进行任务的调度,然后从呢就是接收nimbus分配的任务,当接收到任务以后supervisor在它内部会启动和暂停属于自己管理的进程,这个进程在整个storm架构里面叫做worker,然后nimbus和supervisor分别代表不同的机器。原创 2018-01-10 18:31:06 · 744 阅读 · 0 评论 -
mapreduce--理论
mapreduce的思想:分治思想 通过字母就可以很清晰的看出来,分成了两部分,map和reduce,也就是两个阶段:第一个阶段:把一个大数据拆解成多个小文件;第二个阶段:对拆解后的数据进行求解然后再合并。 来一个经典的图。数据流转一目了然。 大概的流程是这样: 数据存在hdfs中,通过inputformat接口,会吧hdfs里面的大数据切分成若干个split,原创 2018-01-08 17:21:54 · 242 阅读 · 0 评论 -
mapreduce---实践
搞一个简单的wordcountmap.pyreduce.py原创 2018-01-09 14:23:25 · 231 阅读 · 0 评论 -
hdfs---理论
首先说明: HDFS就是一个分布式文件系统一般讲集群都是主从结构,不管你是hdfs还是mapreduce集群框架,都是有一个主多个从。在hdfs里面,namenode就是主,datanode就是从,hdfs还有一个secondarynamenode,这个就是一个镜像文件可以做数据的备份。 缕缕流程 client提交了一个任务,首先呢namenod原创 2018-01-09 21:28:01 · 167 阅读 · 0 评论 -
strom--理论
为啥需要storm,主要是mapreduce这个东西只有跑完才能给你传出结果。而且数据是你启动那一刻的数据,如果想着边算边传文件,mapreduce表示臣妾做不到。流式处理具有时效性高,可以逐条处理数据,处理的快延时也低,类似pipe之类。在storm中一个topology的概念,英文说法就是网络拓扑。也就是说一个网络里面包含了很多个节点,这节点和节点之间室友一个相互的依赖关系和互助数据传原创 2018-01-10 18:09:59 · 263 阅读 · 0 评论 -
idea spark scala maven环境搭建
1.Windows开发环境配置与安装下载IDEA并安装,可以百度一下免费文档。2.IDEA Maven工程创建与配置1)配置maven2)新建Project项目3)选择maven骨架4)创建项目名称5)选择maven地址6)生成maven项目7)选择scala版本8)新建Java 和scala目录9)编辑pom.xml文件3.开发Spark Application程序并进行本地测试1)idea编写...原创 2018-04-19 00:00:22 · 4737 阅读 · 0 评论