
hadoop学习
bokzmm
这个作者很懒,什么都没留下…
展开
-
zookeeper集群查看状态错误:Error contacting service. It is probably not running
今天用三台虚拟服务器搭了个zookeeper集群,在所有配置都设置好后;启动了一台机器上的zookeeper服务后;然后就兴冲冲的想去查看一下他的状态,结果就报了上述错误;而且发现无法登陆到本地的zookeeper服务。后来和同事讨论了一下,差点笑死,搞了这么久的zookeeper,竟然把它的一个很重要的特性给忘了。 zookeeper集群中,只有当有半数以上的机器能正常运行时原创 2018-01-12 21:14:53 · 1404 阅读 · 0 评论 -
hadoop2.7.x搭建高可用集群
一、环境准备及规划(1)三台虚拟服务器,系统版本为centos6.5(2)分别在三台虚拟机上配置java运行环境,这里jdk的版本是1.8(3)zookeeper集群搭建,搭建过程略;详细过程请参考其他博文。(4)hadoop版本:hadoop2.7.1(5)三台虚拟机的基本信息及每台机器上需要部署的服务:主机名IP部署服务原创 2018-01-14 17:03:16 · 503 阅读 · 0 评论 -
hadoop总结及hdfs的读写流程
一、hadoop简介:hadoop是一个适合海量数据存储和计算的分布式基础框架,其起源于google三篇论文。其中,hadoop2.x的版本中,概括起来可分为三大核心或四大模块。三大核心是指:hdfs(分布式文件系统)、yarn(任务调度和资源管理)、mapreduce(分布式离线计算框架);而四大模块除了包括上述的三个核心组件外,外加一个hadoop common组件(其为三大核心组件提供基础工...原创 2018-02-04 10:40:27 · 2671 阅读 · 0 评论 -
mapreduce练习:多文件输出对象MultipleOutputs
一、需求:词频统计,根据单词的首字符的不同输出到不同的结果文件中去。输入文件内容如下:hello worldhello worldhello world123 123 456123 123 456123 123HELLO WORLDHU HA HELLOhello tomjack 123 678腾讯 百度 阿里天猫 腾讯 百度hello jack 456 678二、为了实现...原创 2018-03-08 09:34:11 · 702 阅读 · 0 评论 -
mapreduce练习之数据去重
输入数据: 1997-01-02 phone 1998-10-01 window 1997-01-02 phone 2001-11-23 xbox 2013-08-16 vr 1997-01-02 phone 2001-11-23 xbox 2013-08-16 vr需求:去除其中的重复元素,每个日期对应的商品只保存一份 输出: 1997-01-02 phone 1998-...原创 2018-03-09 21:43:17 · 482 阅读 · 0 评论