
hadoop
修炼到救赎
这个作者很懒,什么都没留下…
展开
-
一文读懂Hadoop、HBase、Hive、Spark分布式系统架构
来源:http://developer.51cto.com/art/201609/516716.htm 机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是基于相同的hdfs存储和yarn资源管理,本文通过全套部署方法来让大家深...转载 2018-08-23 16:03:02 · 5382 阅读 · 0 评论 -
【hadoop】job提交全过程
一、作业提交过程之 YARN (1)作业提交 第0步:client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 第1步:client向RM申请一个作业id。 第2步:RM给client返回该job资源的提交路径和作业id。 第3步:client提交jar包、切片信息和配置文件到指定...转载 2019-06-19 11:56:16 · 188 阅读 · 0 评论 -
Oozie是什么?
但是,一般用Azkaban了。(具体见我写的另一篇博客:) 官网:https://oozie.apache.org/ Oozieis a workflow scheduler system tomanage Apache Hadoop jobs. Oozie Workflow jobsareDirected Acyclical Graphs (DAGs)...转载 2019-06-18 23:51:06 · 271 阅读 · 0 评论 -
Oozie基础入门
前言: 因为工作需要用到oozie,但是网上的资料越看越迷茫,经过很大的努力,终于折腾清楚了,这里,做一个总结,帮助后来者更好地进行入门,当然,粗鄙之言,难免疏漏,欢迎交流指正 引入: 对于我们的工作,可能需要好几个hadoop作业(job)来协作完成,往往一个job的输出会被当做另一个job的输入来使用,这个时候就涉及到了数据流的处理。 我们不...转载 2019-06-18 23:48:55 · 345 阅读 · 0 评论 -
Hadoop2.5.0 Client USE
requires hadoop 2.5.0 running hostname mapping eclipse config package com.dasenlin.hadoop; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apa...原创 2019-03-24 11:49:00 · 177 阅读 · 0 评论 -
adoop对JDK版本的兼容情况
转载:https://wiki.apache.org/hadoop/HadoopJavaVersions Hadoop Wiki Login HadoopJavaVersions FrontPage RecentChanges FindPage HelpContents HadoopJavaVersions Immutable Page Info Attachments ...转载 2019-03-23 14:51:13 · 12173 阅读 · 0 评论 -
Flink简介
来源:https://blog.youkuaiyun.com/superzyl/article/details/79748092?tdsourcetag=s_pcqq_aiomsg 1.Flink的引入 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有Hadoop、Storm,以及后来的Spark,他们都有着各自专注的应用场景。Spark掀开了内存计算的先河,也以内存为赌注,赢得了内...转载 2019-03-06 09:33:48 · 400 阅读 · 0 评论 -
Hadoop免费大数据平台CDH、HDP
2) CDH有两个类型的平台(大数据套装、单机版虚拟机镜像) (1)大数据套装:由各个Hadoop大数据生态组件组成,只需简单配置就可部署。 https://www.cloudera.com/downloads/cdh/5-13-0.html (2)单机版虚拟机镜像:主要用于学习和研究,不能用于部署。 https://www.cloudera.com/downloads/quick...转载 2019-01-21 09:06:35 · 1575 阅读 · 0 评论 -
HDP与CDH
一、 Hadoop版本 目前Hadoop发行版本非常多,我个人接触的有HDP和CDH,Hortonworks版本(Hortonworks Data Platform,简称“HDP”),Cloudera版本(Cloudera Distribution Hadoop,简称“CDH”),还有其他的版本,目前中国公司我发现用的CDH版本较多,至于什么原因我也不是很清楚,不知道是不是跟风,从我个人的角度使...转载 2019-01-21 08:56:44 · 3099 阅读 · 0 评论 -
MapReduce编程job概念原理
在Hadoop中,每个MapReduce任务都被初始化为一个job,每个job又可分为两个阶段:map阶段和reduce阶段。这两个阶段分别用两个函数来表示。Map函数接收一个<key,value>形式的输入,然后同样产生一个<ey,value>形式的中间输出,Hadoop会负责将所有具有相同中间key值的value集合在一起传递给reduce函数,reduce函数接收...转载 2019-06-19 12:10:47 · 470 阅读 · 0 评论