
Hadoop
别等时光非礼了梦想z
这个作者很懒,什么都没留下…
展开
-
Hadoop介绍,环境搭建,架构
前言 Hadoop早期衍生自Nutch(Java开源的搜索引擎),早期Nutch构建开源的搜索引擎,同样在少数的机器上同时运行计算任务面临着问题,在这个时候Google发布了GFS和Map Reduce论文。人们参考着这两篇论文中所阐述的思想开始重建Nutch的存储和计算模型。一开始尝试在20台机器的计算和存储,不久人们发现为了满足web服务高扩展性,需要将集群规模扩展到几千台的...原创 2018-07-02 21:28:28 · 286 阅读 · 0 评论 -
Hadoop HDFS JAVA API
windows环境要求 解压hadoop-2.6.0.tar.gz到D盘根目录,配置HADOOP_HOME环境变量添加hadoop.dll、winutils.exe到hadoop的bin目录中 重启IDEA在windows配置主机名和IP的映射关系(win10为例)(shift+右键以管理员身份打开)C:\Windows\System32\drivers\et...原创 2018-07-03 12:51:16 · 252 阅读 · 0 评论 -
Hadoop Map Reduce计算框架概述
Map Reduce(计算框架) Map Reduce是Hadoop提供的一款通用的并行计算框架,该计算框架可以计算来自于文本文件、NoSQL、RDBMS系统中的数据。该计算实质是利用了HDFS集群中的DataNode所在机器的CPU、内存和少许磁盘完成分布式计算。该计算分为两个阶段:①Map reduce将一个大任务拆分若干个小任务(数据拆分),Map阶段作用是对每一小任务对应的...原创 2018-07-03 20:38:58 · 359 阅读 · 0 评论 -
Hadoop MapReduce 任务发布
MapReduce 任务发布预埋数据0.0[root@CentOS ~]# vim words When I am downYou raise me upI believe I can fly上传到hdfs中[root@CentOS ~]# hdfs dfs -mkdir /demo[root@CentOS ~]# hdfs dfs -put words /demo/w...原创 2018-07-04 17:20:11 · 584 阅读 · 0 评论 -
Hadoop MR InputFormat/OutputFormat
常见的InputFormat&OutputFormat InputFormat作用是为MapTask任务(第一阶段 归类/分析)阶段准备需要分类的数据信息。InputFormat的核心作用1、计算任务切片2、读取切片数据RecordReader。 InputForamt: ① FileIputFormat (负责读取HD...原创 2018-07-05 22:29:28 · 1310 阅读 · 0 评论 -
Hadoop Map Reduces实例练习
现有如下文件,分别代表某一年每个名字对应的性别,和对应的人数。每个文件内数据格式如下(取其中的一部分)Mary,F,7065Anna,F,2604Emma,F,2003Elizabeth,F,1939Minnie,F,1746Margaret,F,1578Ida,F,1472Alice,F,1414...Claud,M,90Roscoe,M,90Sylveste...原创 2018-07-04 20:54:40 · 243 阅读 · 0 评论 -
HDFS Name Node HA (Resource Manager HA)
CentOSA CentOSB CentOS 192.168.199.131 192.168.199.132 192.168.199.133 zookeeper zookeeper zookeeper journalnode journalnode journalnode nn1 nn2 zkfc zkf...原创 2018-07-06 17:59:15 · 324 阅读 · 0 评论 -
第三方jar包解决方案
第三方jar包解决方案 方案1:可以将任务jar中建立lib目录把依赖的jar放入该目录,此时项目运行时会自动寻找lib目录下的jar Task运行期间Jars依赖 可以通过以下方案方案2:conf.set("tmpjars","file:///jar路径 ");hadoop jar xxx.jar xxx入口类 -libjars jar路径...原创 2018-07-06 22:16:54 · 858 阅读 · 0 评论