
20 hadoop入门
本专辑介绍hadoop的使用
张力的程序园
兰州大学毕业,10多年软件开发经验,善于系统性设计多种技术映射到问题解决空间。java出身,精通设计模式,熟悉经典算法,主要从事方向为分布式和大数据研发,对高并发、大流量设计思想有深刻理解和运用。
展开
-
08 使用zookeeper保证namenode、resourcemanager的高可用性
上一篇文章,我们完成了hadoop的集群安装,但从机子的节点分布图中我们可以看到namenode只在master机子上存在,一旦该机子宕机,则HDFS停服,所以我们需要一种机制来保证namenode的高可用性,这种风险也存在于resourcemanager。本文将阐述使用zookeeper来保证namenode以及resourcemanager的高可用性。 1 系统、软件和约束前提...原创 2019-06-04 08:10:24 · 333 阅读 · 0 评论 -
07 安装hadoop集群
通过上面几篇文章,我们熟悉了单机情况下的HDFS操作和MapReduce计算,在实际使用中,为了提升性能和稳定性,大数据组件都会以集群的方式存在,本文将阐述如何搭建hadoop集群。 1 系统、软件和前提约束 CentOS 7 (1)三台CentOS都已经配置免密登录 https://www.jianshu.com/p/0cc72b228647 (2)三台CentOS都已经安装j...原创 2019-05-30 13:49:23 · 78 阅读 · 0 评论 -
06 java完成自定义的词频统计
上一篇文章我们测试了hadoop自带的词频统计,本节将使用java完成自定义的词频统计。 1 系统、软件和前提约束 完成java访问HDFS服务 https://www.jianshu.com/p/386cd966c04f 测试了hadoop自定义的词频统计 https://www.jianshu.com/p/327d2af3903d 2 操作 1 在java访问HDFS...原创 2019-05-30 12:52:33 · 108 阅读 · 0 评论 -
05 测试hadoop自带词频统计demo
在了解了Hadoop中的存储组件HDFS之后,我们再来看一下Hadoop中另一个重要组件的计算MapReduce。HDFS搞定海量的存储,MapReduce搞定海量的计算。hadoop如其他优秀的开源组件一样,也提供了丰富的demo,下面我们就来看一下如何使用mapreduce自带demo进行词频统计。 1 系统、环境和约束条件 在CentOS7中安装hadoop并启动,作者的h...原创 2019-05-30 12:34:44 · 121 阅读 · 0 评论 -
04 在eclipse中查看HDFS
在上面的例子中,我们通过java代码对hdfs进行了操作,操作结果我们可以用代码继续查看或者通过命令行获得,但不论哪一种都不够直观,eclipse提供了一种直接连接HDFS 并展示的插件。我们将展示如何使用此插件。 1 系统、软件以及前提约束 在CentOS7中安装hadoop https://www.jianshu.com/p/b7ae3b51e559 eclipse Oxy...原创 2019-05-29 21:59:18 · 317 阅读 · 0 评论 -
02 HDFS的命令行操作
在安装好Hadoop之后,我们来熟悉在命令行界面当中操作分布式文件存储组件HDFS。 HDFS是Hadoop大数据平台中的分布式文件系统,为上层应用或其他大数据组件提供数据存储,如Hive,Mapreduce,Spark,HBase等。 1 系统、软件以及前提约束 CentOS-7 64 为减少linux权限对初学者造成影响,所有命令均在linux的root权限下进行操作。 已安...原创 2019-05-28 22:39:06 · 180 阅读 · 0 评论 -
01 在CentOS7中安装Hadoop
hadoop是大数据入门组件,主要包括两个服务,hdfs以及mapreduce,前者是存储,后者是计算。本文将阐述hadoop的安装。 1 系统、软件以及前提约束 CentOS 7 64 工作站 作者的机子ip是192.168.100.192,请读者根据自己实际情况设置 jdk1.8.0_162 已经安装完毕,并配置环境变量,作者的环境变量为/root/jdk1.8.0_162,...原创 2019-05-28 00:13:26 · 118 阅读 · 0 评论