
hadoop
寂寞烟
打杂的码农
展开
-
Hadoop安装配置
1、集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。 对于Had转载 2014-03-18 15:58:31 · 799 阅读 · 0 评论 -
【Hadoop】用web查看hadoop运行状态
我们安装完hadoop,下面我们从视觉上看看hadoop怎么玩的。 我们可以在win7系统上,通过web界面,在浏览器地址栏输入地址,直接查看hadoop的运行情况; 10.10.11.191:50030这个里面,我们可以看到Map/Reduce的管理情况 10.10.11.191:50070这里可以看到HDFS的管理情况。 但是在这里,会有一转载 2014-05-09 16:12:11 · 1408 阅读 · 0 评论 -
Hadoop添加节点datanode
1.部署hadoop和普通的datanode一样。安装jdk,ssh2.修改host和普通的datanode一样。添加namenode的ip3.修改namenode的配置文件conf/slaves添加新增节点的ip或host4.在新节点的机器上,启动服务[root@slave-004 hadoop]# ./bin/hadoop-daemon.原创 2014-05-12 14:58:11 · 575 阅读 · 0 评论 -
Hadoop常见问题及解决办法
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。 /etc/security/limits.conf转载 2014-05-19 11:29:07 · 5446 阅读 · 0 评论 -
hadoop2/CDH4集群搭建
十分钟搭建自己的hadoop2/CDH4集群版本及准备我部署的是hadoop-2.0.0-cdh4.2.0.tar.gz,下载地址为http://archive.cloudera.com/cdh4/cdh/4/hadoop-2.0.0-cdh4.2.0.tar.gz。在http://archive.cloudera.com/cdh4/cdh/4/下还可以下载到CDH hadoop生原创 2014-05-20 12:27:27 · 738 阅读 · 0 评论 -
hadoop cdh安装
离10月15日Hadoop发布2.2.0这个稳定版本已经过去2个月了,最近终于抽了点时间搭建了一个3节点的集群,体验了一把YARN上如何跑Map/Reduce程序了。每次搭建Hadoop测试集群都或多或少的碰到一些问题,几乎没有一次是一步到位的了,这次也不例外,也碰到过几个问题,不过Google很快帮忙解决了。安装使用Hadoop2.2.0务必要先搞清除OS是32位还是转载 2014-05-20 12:25:02 · 1108 阅读 · 0 评论 -
hadoop 启动指令
start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrackstop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrackstart-dfs.sh 启动Ha转载 2014-06-03 10:35:23 · 692 阅读 · 0 评论 -
cdh5安装注意
1、今天在安装hadoop后,启动start-yarn.sh后,nodemanager起不起来,后来查看DN节点的日志,报了以下一个错误:FATAL org.apache.hadoop.yarn.server.nodemanager.NodeManager: Error starting NodeManager java.lang.IllegalArgumentException: Th原创 2014-05-21 17:18:18 · 1416 阅读 · 0 评论 -
国内最全最具体的hadoop2.2.0集群的HA高靠得住的最简单设备
简介hadoop中的NameNode比如是人的心脏,很是首要,绝对不成以停止工作。在hadoop1时代,只有一个NameNode。若是该NameNode数据丧失或者不克不及工作,那么全部集群就不克不及恢复了。这是hadoop1中的单点题目,也是hadoop1不成靠的发挥解析,如图1所示。hadoop2就解决了这个题目。图1hadoop2.2.0中HD转载 2014-06-03 11:35:26 · 850 阅读 · 0 评论 -
hadoop cdh5安装(我是按这个配置安装成功的)
Hadoop-2.2.0集群安装配置实践 2013-12-26 20:14:42 YanjunHadoop 2.x和1.x已经大不相同了,应该说对于存储计算都更加通用了。Hadoop 2.x实现了用来管理集群资源的YARN框架,可以面向任何需要使用基于HDFS存储来计算的需要,当然MapReduce现在已经作为外围的插件式的计算框架,你可以根据需要开发或者选择合适的计算框架。转载 2014-05-22 16:04:55 · 4041 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 Ma转载 2014-05-20 16:06:16 · 609 阅读 · 0 评论 -
hadoop三个配置文件的参数含义说明
常用的端口配置HDFS端口 参数描述默认配置文件例子值fs.default.name namenodenamenode RPC交互端口8020core-site.xmlhdfs://master:转载 2014-06-05 17:47:01 · 1523 阅读 · 0 评论 -
SecondNamenode详解与设置
环境如下(停止所有服务stop-all.sh):master:master 192.168.1.106slave:slave1 192.168.1.107 slave2 192.168.1.1081、修改master(改为slave其中的一个)#master 其实配置的是secondslave1 2、修改core-site.xml原创 2014-06-10 00:00:19 · 2356 阅读 · 0 评论 -
Hadoop2.0的HA介绍
前一篇文章介绍了Hadoop2.0(hadoop2.0架构,具体版本是hadoop2.2.0)的安装和最基本的配置(见 http://www.linuxidc.com/Linux/2014-05/101173.htm ),并没有配置HA(High Avalability,高可用性),接下来的文章中会介绍hadoop2.0HA的配置。在介绍hadoop2.0的HA配置之前,本文先介绍hadoop2转载 2014-06-10 14:34:32 · 1033 阅读 · 1 评论 -
hadoop集群搭建
首先确定hdfs分布式文件系统目前很多大公司都在用,例如百度、腾讯、淘宝等。相信网上也有很多关于这方面的文档,我写这篇文章只是为了自己更加深刻的学习和理解,或者帮助一些不会搭建的童鞋们!以前我搭建的是hadoop-0.20.2、hbase-0.90.4、hbase自带的zookeeper,但是经过与开发测试后,用了hadoop-1.0.3、hbase-0.92.1和独立部署的zookeeper-3转载 2014-03-24 18:20:42 · 517 阅读 · 0 评论 -
Hadoop MapReduce开发最佳实践
原帖:http://www.infoq.com/cn/articles/MapReduce-Best-Practice-1MapRuduce开发对于大多数程序员都会觉得略显复杂,运行一个WordCount(Hadoop中hello word程序)不仅要熟悉MapRuduce模型,还要了解Linux命令(尽管有Cygwin,但在Windows下运行MapRuduce仍转载 2014-03-24 16:08:16 · 995 阅读 · 0 评论 -
MR与Mysql交互
package testClass20140311;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;原创 2014-03-18 17:15:09 · 742 阅读 · 0 评论 -
vmware tools安装
vmware tools安装之后方便使用虚拟机,最常用的自动全屏和支持复制粘贴文件至虚拟机1 启动虚拟机,开始终端执行[plain] view plaincopyyum install gcc gcc-c++ gcc-gfortran -y 2 vmware菜单上VM->Install Vmware Tools原创 2014-03-18 17:18:40 · 708 阅读 · 0 评论 -
MapReduce入门实例
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下所示: 1)file1:转载 2014-03-18 15:22:00 · 1260 阅读 · 0 评论 -
Eclipse开发环境设置
1、Hadoop开发环境简介1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz1.2 Windows开发简介 Java版本:jdk-6u31-windows-i586.exe Win系统:Window转载 2014-03-18 15:43:55 · 1242 阅读 · 0 评论 -
SecureCRT使用
1、SecureCRT简介 SecureCRT是一款支持SSH(SSH1和SSH2)的终端仿真程序,同时支持Telnet和rlogin协议。SecureCRT是一款用于连接运行包括Windows、UNIX和VMS的远程系统的理想工具。通过使用内含的VCP命令行程序可以进行加密文件的传输。有流行CRTTelnet客户机的所有特点,包括:自动注册、对不同主机保持不同的特性、打印功能转载 2014-03-18 16:54:37 · 2335 阅读 · 0 评论 -
Hadoop,MapReduce操作Mysql
前以前帖子介绍,怎样读取文本数据源和多个数据源的合并:http://www.cnblogs.com/liqizhou/archive/2012/05/15/2501835.html这一个博客介绍一下MapReduce怎样读取关系数据库的数据,选择的关系数据库为MySql,因为它是开源的软件,所以大家用的比较多。以前上学的时候就没有用过开源的软件,直接用盗版,也相当与免费,且比开源好用,原创 2014-03-18 17:12:12 · 523 阅读 · 0 评论 -
VmWare安装CentOS6
第一次使用VmWare和CentOS6,中间遇到不少问题,记性不好,还是记下来留作以后查看,也方便遇到这些问题的朋友能做个参考:),我的操作系统是WIN7旗舰版,VMware版本是VMware-workstation-full-7.1.0,CentOS的版本是CentOS-6.0-i386,32位的(注意如果Windows本身是32位的,CentOS版本也应该选择32位的,否则会提示不支持,也可能原创 2014-03-18 17:41:57 · 731 阅读 · 0 评论 -
WordCount运行详解
1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是Job转载 2014-03-18 15:39:09 · 757 阅读 · 0 评论 -
yum安装mysql
linux下使用yum安装mysql,以及启动、登录和远程访问。 1、安装查看有没有安装过: yum list installed mysql* rpm -qa | grep mysql* 查看有没有安装包: yum list mysql* 安装mysql客户端: yum insta原创 2014-03-18 17:08:13 · 777 阅读 · 0 评论 -
JDK和SSH无密码配置
1、Linux配置java环境变量 1.1 原文出处 地址:http://blog.youkuaiyun.com/jiedushi/article/details/6672894 1.2 解压安装jdk 在shell终端下进入jdk-6u14-linux-i586.bin文件所在目录,执行命令 ./jdk-6u14-linux-i586.bin 这时会出转载 2014-03-18 15:47:24 · 758 阅读 · 0 评论 -
vmware tools安装
vmware tools安装之后方便使用虚拟机,最常用的自动全屏和支持复制粘贴文件至虚拟机1 启动虚拟机,开始终端执行[plain] view plaincopyyum install gcc gcc-c++ gcc-gfortran -y 2 vmware菜单上VM->Install Vmware Tools原创 2014-04-01 09:47:07 · 873 阅读 · 0 评论 -
MR优化
6.4.6 优化数据序列化如何存储和传输数据对性能有很大的影响。在这部分将介绍数据序列化的最佳实践,从Hadoop中榨出最大的性能。压缩 压缩是Hadoop优化的重要部分。通过压缩可以减少作业输出数据的储存足迹,加速MapReduce作业下游接收数据。另外,在map和reduce之间的数据需要被压缩以减轻网络IO的压力。压缩技术的具体内容在第5章中介绍。二进制文件格式原创 2014-03-21 11:06:27 · 943 阅读 · 0 评论 -
JobBuilder
Hadoop学习有一段时间了,但是缺乏练手的项目,老是学了又忘。想想该整理一个学习笔记啥的,这年头打字比写字方便。果断开博客,咩哈哈~~ 开场白结束(木有文艺细胞) 默认的MapReduce作业 import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;i原创 2014-03-21 10:25:26 · 2702 阅读 · 0 评论 -
hadoop2.x常用端口及定义方法
Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明HDFS原创 2014-05-28 14:58:33 · 763 阅读 · 0 评论