
hadoop相关
年华似水
一小程序员,每天为梦想拼搏!
展开
-
hadoop 中添加和删除 datanode和tasktracker(一)
hadoop添加删除datanode及tasktrackerhadoop 添加删除datanode及tasktracker 首先: 建议datanode和tasktracker分开写独立的exclude文件,因为一个节点即可以同时是datanode和tasktracker,也可以单独是datanode或tasktracker。 1、删除datanode原创 2012-08-15 15:52:34 · 1877 阅读 · 0 评论 -
sqoop远程debug讲解
由于sqoop运行依赖Hadoop等组件,且会设置很多环境变量。这就导致想要在本地测试其功能非常繁琐,幸好可以借助Java的远程调试机制来做。可以先在测试Linux机器上面安装好hadoop/Hbase/zookeeper等,然后本地windows环境用eclipse导入同样的sqoop代码。 搭建sqoop的eclipse调试环境下载sqoop的tar包解压,cd到sqoop根目录执原创 2016-12-17 19:09:52 · 1870 阅读 · 0 评论 -
hadoop多次格式化后导致VERSION不一致,启动namenode和datanode时报错的解决方法
一般有4个地方的VERSION会出现不一致的问题:JN(journal node)的 VERSION 的/dfs/jndata/Dsjpt01/current namenode的VERSION hdfs-site.xml/dfs/name/current/VERSION /dfs/edits/current/VERSION以上这些并不是固定的,都是在原创 2016-01-12 22:37:32 · 4424 阅读 · 0 评论 -
hadoop访问hdfs 的两种方式
hadoop 提供了两种方式对hdfs 进行访问:1 配置客户端,后台连接到客户端进行工作客户端的配置比较简单,只要把配置好的hadoop的namenode节点的hadoop 打包,发到另一台机器(该机器不出现在 etc/hadoop/slaves里就可以)设置一下环境变量 JAVA_HOME HADOOP_HOME 还有一些在hadoop xml配置的临时文件目录等 也改一下(启原创 2015-03-18 13:06:20 · 24872 阅读 · 0 评论 -
Hadoop 的HA高可集群用性
原文地址: http://blog.youkuaiyun.com/caizhongda/article/details/7947480一、 Hadoop 的高可用性1. 概论本指南提供了一个HDFS 的高可用性(HA )功能的概述,以及如何配置和管理HDFS 高可用性(HA) 集群。本文档假定读者具有对HDFS 集群的组件和节点类型具有一定理解。有关详情,请参阅Apache 的HDFS转载 2015-03-06 13:38:09 · 437 阅读 · 0 评论 -
hadoop-HA Hadoop 2.2.0版本HDFS的HA配置
http://blog.youkuaiyun.com/dmcpxy/article/details/18256607注:以下配置描述的是HDFS的QJM方式的HA配置。1.1 zookeeper集群配置这里我使用了三台机器(在笔记本上使用vmware创建了三个虚拟机来实现)部署zookeeper集群,机器IP分别是:l 192.168.111.130(hostname:hd0)转载 2015-03-06 13:41:37 · 736 阅读 · 1 评论 -
hadoop-HA hadoop2.0 HDFS搭建和HA切换
http://blog.youkuaiyun.com/kirayuan/article/details/17379743说到了hadoop2.0的新特性。这里详解一下搭建步骤以及原理。 首先,需要在cdh官方下载对应的源码包:http://archive.cloudera.com/cdh4/cdh/4/ 以cdh4.3.1版本为例来进行说明。转载 2015-03-06 13:39:42 · 767 阅读 · 0 评论 -
Hadoop 配置及hadoop HA 的配置
注:本文中提到的ochadoop 不要感到奇怪,是亚信公司内部自己合成的一个包,把所有的组件都放在一个包内了,免去了组件的下载过程和解决兼容问题,其实也可以自己下载的,不要受到影响。另,转载请注明出处,谢谢修改静态IP和hostname在 /etc/sysconfig/network-scripts/ifcfg-eth0配置IPADDR地址运行以下命原创 2015-03-15 09:00:18 · 9948 阅读 · 1 评论 -
hadoop 使用LZO (1)
转自:http://share.blog.51cto.com/278008/549393最近我们部门在测试云计算平台hadoop,我被lzo折腾了三四天,累了个够呛。在此总结一下,也给大家做个参考。 操作系统:CentOS 5.5,Hadoop版本:hadoop-0.20.2-CDH3B4 安装lzo所需要软件包:gcc、ant、lzo、lzo编码/解转载 2015-01-10 18:18:17 · 651 阅读 · 0 评论 -
hadoop使用LZO (2)
转自:http://www.tech126.com/hadoop-lzo/自从Hadoop集群搭建以来,我们一直使用的是Gzip进行压缩当时,我对gzip压缩过的文件和原始的log文件分别跑MapReduce测试,最终执行速度基本差不多而且Hadoop原生支持Gzip解压,所以,当时就直接采用了Gzip压缩的方式关于Lzo压缩,twitter有一篇文章,转载 2015-01-10 18:17:02 · 646 阅读 · 0 评论 -
hadoop的压缩格式
转自:http://www.cnblogs.com/ggjucheng/archive/2012/04/22/2465580.htmlhadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,hadoop能够自动为我们 将压缩的文件解压,而不用我们去关心。 如果我们压缩的文件有相应压缩格式的扩展名(比如lzo,gz,bzip2等),hadoop就会根据扩转载 2015-01-10 17:06:19 · 785 阅读 · 0 评论 -
Hadoop源代码组织结构
文章转自:1.4 Hadoop源代码组织结构直接解压Hadoop压缩包后,可看到图1-11所示的目录结构,其中,比较重要的目录有src、conf、lib、bin等。下面分别介绍这几个目录的作用:src:Hadoop源代码所在的目录。最核心的代码所在子目录分别是core、hdfs和mapred,它们分别实现了Hadoop最重要的三个模块,即基础公共库、HDFS实现和MapRe转载 2014-08-04 21:05:05 · 703 阅读 · 0 评论 -
mapreduce框架详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架转载 2014-08-04 21:13:18 · 774 阅读 · 0 评论 -
Hadoop中的distcp
Hadoop中的distcp hadoop中有一个叫做distcp(分布式复制)的有用程序,能从hadoop的文件系统并行复制大量数据。distcp一般用于在两个HDFS集群中传输数据。如果集群在hadoop的同一版本上运行,就适合使用hdfs方案: % hadoop distcp hdfs://namenode1/foo hdfs://namenode2原创 2013-01-10 12:53:13 · 1296 阅读 · 0 评论 -
hadoop 中添加和删除 datanode和tasktracker(二)
增加Hadoop新节点:向一个正在运行的Hadoop集群中增加几个新的Nodes1. 新节点上部署java/hadoop程序,配置相应的环境变量2. 新节点上增加用户,从master上拷贝id_rsa.pub并配置authorized_keys3. 新节点上设置/etc/hosts,需要NameNode的主机和所有DataNode的主机/etc/host原创 2012-08-15 15:55:24 · 1439 阅读 · 0 评论 -
如何恢复和释放Hadoop中被删除的文件
如何恢复和释放Hadoop中被删除的文件 hadoop的hdfs中被删除文件的恢复原理和回收站原理是一样的,就是在删除hdfs文件时,被删除的文件被移动到了hdfs的.Trash文件夹中,恢复时只需将该文件夹中文件拿出即可。具体操作如下: 1 设置.Trash文件夹 如果需要恢复hdfs中文件,就需要设置.Trash,hadoop的.Trash默认是关闭的。具体设置如下:转载 2017-11-23 21:10:28 · 2681 阅读 · 0 评论