- 博客(51)
- 资源 (2)
- 收藏
- 关注
原创 hadoop 自动化部署 一
去年写了个python 版本的 hadoop 环境自动部署,但虎头蛇尾,再也没有心情捡起来了,将其中一部分贴在博客上,有觉得有用的,拿去用吧,尽量完善一下 再次贴回来,大家共享一下 吧我这个脚本基本上能完成 整个环境的ssh 配置,只需要一个配置文件几次输入密码
2015-02-05 16:53:00
3852
1
原创 hadoop1.0.4升级到hadoop2.2 详细流程步骤
hadoop1 升级到hadoop2 借用别人的步骤,在时间中做了细化说明,希望对升级的玩家起到一定的辅助作用
2014-09-17 12:05:51
5463
1
原创 Hadoop学习笔记---MapReduce
1、认识MapReduce MapReduce 是一种可用于数据处理的编程模型,有一下特点: 编程模型简单,但业务实现不一定简单; Hadoop可以运行各种该语言编写的MapReduce程序,如java,python 等,很多企业为求开发效率采用python来开发MapReduce程序; MapReduce 程序是并行运行的,所以又叫批处理程序。
2014-03-24 14:45:05
3431
原创 Hadoop学习笔记二---HDFS
HDFS的概念1、数据块 HDFS跟磁盘一样也有块的概念,磁盘上块的大小一般为512字节,而文件系统的块则一般是磁盘块的整数倍,比如我当前centos块的大小事4096 也就是4K,而HDFS块的大小由参数dfs.block.size 设定默认是64M,但是与单一磁盘文件系统相似,HDFS上的文件也被分为块大小的多个分块(chunk)。 为什么HDFS中的块如此之大?
2014-03-24 14:36:49
6854
原创 Hadoop学习笔记---基本概念
0、前言: 不做过多介绍Hadoop 网上比比皆是,每本书买来一看,第一张都是千篇一律,本文不做过多阐述,希望将此文建立在对hadoop有些了解的基础上,本文的总体流程是,先提出一个subject,然后根据关联将相关联的概念参数一并带出,虽整体不美观,但有助于将相关知识汇总记忆。1、Hadoop 版本图: 第一个大的主线是社区版的Hadoop路线图,200
2014-03-24 14:28:43
3806
原创 用大数据的思维考虑问题
什么是大数据,大数据其实是一个概念,一种思考和解决问题的方式。从次面意思上指很大很大的数据,何为很大,当你的关系型数据库、当你的文本无法承受这么多数据的时候,那数据就很大了,动辄几个T 乃至更大,我们就习惯上成为大数据。但我这里所说的大数据是一个方式,就是说不管我们数据是否真的很大很大,我们都以大数据的方式考虑问题。中国人旅游大多跟团走,那旅行社其实早就对中国人旅游的嗜好进行了判定而不是揣
2014-03-11 16:53:02
1646
原创 hbase 学习笔记二----shell
Hbase 是一个分布式的、面向列的开源数据库,其实现是建立在google 的bigTable 理论之上,并基于hadoop HDFS文件系统。 Hbase不同于一般的关系型数据库(RDBMS)。是一种适用于非结构化数据存储的数据库,且Hbase是基于列的数据库。 下面的内容基于我们已经安装好hadoop、hbase。 一、hbase shell 介绍 h
2013-10-12 16:59:35
22568
原创 hbase 学习笔记一---基本概念
说在前面,本文部分内容来源于社区官网经过适度翻译,部分根据经验总结,部分是抄袭网络博文,(不一一列举引用,在此致歉)一并列在一起,本文的目的,希望能总结出一些有用的,应该注意到的东西,基本思路是先提出一个话题,在此话题内,把相关联的东西加进去,而不是单独分出章节单独介绍,虽然条理性欠差,但有利于后期根据关键词查找。 Apache HBase 是Hadoop database的简称,h
2013-10-12 16:08:26
17735
1
原创 HBase 学习笔记三---守护进程及内存调优
1、HMaster HMaster的任务前面已经说过了,两个大方向:一、管理Hbase Table的 DDL操作 二、region的分配工作,任务不是很艰巨,但是如果采用默认自动split region的方式, HMaster会稍微忙一些,负载不大,可适度对此进程做适量放大heap 的操作,但不可太大,因为更耗内存的是HRegionServer 2、HRe
2013-10-10 16:24:54
14494
原创 CombineFileInputFormat
package cn.mrzhou.test;import java.io.IOException;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hado
2013-08-09 11:57:02
1989
转载 hbase bug
转自:http://blog.youkuaiyun.com/chenyi8888/article/details/8646659因为对Hbase了解不多,以下碰到的问题都是很基础问题:1、运行MR程序时出现:13/03/07 14:04:58 INFO mapred.JobClient: Task Id : attempt_201303031058_0325_m_000008_0, S
2013-05-08 16:01:18
2921
1
转载 hbase操作以及维护
转自:http://www.itinit.net/thread-1322-1-1.html一,基本命令: 建表:create 'table','t1','t2' 也可以建表时加coulmn的属性如:create 'table',{NAME => 't1', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS
2013-04-18 11:34:17
1848
转载 INFO org.apache.hadoop.ipc.RPC: Server at /:9000 not available yet, Zzzzz
转自:http://blog.sina.com.cn/s/blog_893ee27f0100zoh7.html很多情况下遇到类似问题hadoop datanode 问题 INFO org.apache.hadoop.ipc.RPC: Server at /:9000 not available yet, Zzzzz..本以为这个样子就大功告成了,然后我用bin/hadoop
2013-04-08 14:11:09
5727
转载 原码, 反码, 补码 详解
看看这些 是否都学过,是否经常不用都忘记了,回忆一下吧转自:http://www.cnblogs.com/zhangziqiu/archive/2011/03/30/ComputerCode.html本篇文章讲解了计算机的原码, 反码和补码. 并且进行了深入探求了为何要使用反码和补码, 以及更进一步的论证了为何可以用反码, 补码的加法计算原码的减法. 论证部分如有不对的地方
2013-03-20 10:37:19
663
转载 java中String s=”abc“及String s=new String("abc")详解
转自:http://blog.youkuaiyun.com/lubiaopan/article/details/4776000这个文章说明非常清晰首先,我们先来看一下java中变量的语义:java的变量有两种语义,原始类型的变量是值语义(value),也就是说,你给一个原始类型变量赋值,就改变了这个数据值本身。对象类型的变量是引用语义,也就是说,给一个对象类型的变量赋值只是让它指向另一
2013-03-18 16:54:16
1039
原创 hive 创建外表
hive 中 创建表 可以用CREATE TABLE TABLE (id string,name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' //声明文件分隔符LOAD DATA LOCAL INPATH 'input/ncdc/youdata.txt' //load 数据文件路径 将此文件 加载到hive 的war
2013-03-18 11:11:25
31640
原创 hadoop archive
具体格式如下:hadoop archive -archiveName name.har -p src desthadoop archive -archiveName 20130312.har -p /flume/loginlog/20130312 loglog/这样如果mapreduce 中要指定路径的话,必须明确指定 har 文件如 hadoop jar aaa.jar
2013-03-13 11:06:09
742
原创 hive hwi 启动错误
13/03/13 09:54:20 INFO hwi.HWIServer: HWI is starting up13/03/13 09:54:20 FATAL hwi.HWIServer: HWI WAR file not found at /home/hadoop/hive-0.9.0/home/hadoopi/hive-0.9.0/lib/hive-hwi-0.9.0.war这
2013-03-13 10:32:59
2829
原创 xceiverCount 258 exceeds the limit of concurrent xcievers 256
看到这个错误,我们就首先应该想到hadoop 的配置参数dfs.datanode.max.xceivers 那这个错误到底是什么错误呢?这个错误是指hadoop上同时运行的线程数不能超过256 也就是dfs.datanode.max.xceivers 的默认值,当使用hbase的时候,这个值很容易就达到了,因为datanode 在写操作时,到文件块的每个打开的连接都会使用一个线程。所以
2013-03-04 10:08:03
2292
原创 hadoop hbase 升级
Hadoop HDFS 与Hbase升级笔记由于之前使用了hadoop1.0.2,hbase 使用的是hbase-0.92.1 但是一次事故导致元数据丢失,且修复元数据的类本身有BUG 所以摆在眼前的只有两条路:1、修改hbase源码重新编译 hbase 修复BUG 2、升级到下一个版本,且这个版本已经修复了此BUG 从release node中看到 0.92.2及以后版本均修复了
2013-03-01 15:52:32
3357
转载 MapReduce 中如何处理HBase中的数据?如何读取HBase数据给Map?如何将结果存储到HBase中?
说明:原出处我已经找不到了,请见谅MapReduce 中如何处理HBase中的数据?如何读取HBase数据给Map?如何将结果存储到HBase中?Mapper类:包括一个内部类(Context)和四个方法(setup,map,cleanup,run); setup,cleanup用于管理Mapper生命周期中的资源。setup -> map -> cleanu
2013-03-01 10:05:54
2187
原创 hadoop 中 RPC HTTP TCP/IP 服务器的用途
hadoop 守护进程一般同时运行RPC 和HTTP两个服务器,RPC服务器支持守护进程间的通信,HTTP服务器则提供与用户交互的Web页面。需要分别为各个服务器配置网络地址和端口号。当网络地址被设为 0.0.0.0的时候,Hadoop将于本机上所有的地址绑定。用户也可以将服务器与某个指定的地址绑定。端口号为0 表示服务器会选择一个空闲的端口号:但这种做法与集群范围的防火墙策略不兼容,因为防火墙通
2013-02-19 11:58:36
2799
原创 hadoop 集群中 同步配置文件
在集群配置中,经常遇到的问题:1、修改了namenode上的配置文件了,但是忘记把所有文件copy到所有的节点上,导致参数不起作用,或者根本就产生错误2、修改了namenode上的配置文件了,手动一个一个的copy到所有的节点上,如果节点较少,则问题不大,如果节点比较多,那可能问题就来了,中间是否有漏更新的,且也耽误时间基于以上两个问题,就需要用到rsync工具,当集群启动的时候,自动
2013-02-19 11:04:47
5201
原创 重新 format namenode datanode无法启动
如果有需求要把namenode format的话,那就会出现上述情况如果数据还有用,那首先要保存元数据,走下面两种方式之一。如果数据是测试数据,没有也罢,可以放心删除的话那就直接走下面两种方式吧此时有两种解法1、手动删除datanode目录下的全部数据,再重新format2、将datanode下namespaceID手动修改为和namenode-->current-->VE
2013-02-18 11:28:42
1834
1
原创 Mapreduce 读取Hbase,写入hbase IO 不均衡问题
硬件环境:h46、h47、h48 三个节点 2cpu 4核 共8个核心 14G 内存软件环境:三台机器分别部署hadoop、hbase 并同时作为datanode 和 tasktracker regionserver、HQuorumPeer;H46同时为Namenode、Jobtracker 和HMaster 和HQuorumPeer出现问题:跑mapreduce 时使用 iost
2013-02-04 19:19:42
1944
转载 Apache Mahout 简介
转自:http://www.ibm.com/developerworks/cn/java/j-mahout/Apache Mahout 简介通过可伸缩、商业友好的机器学习来构建智能应用程序Grant Ingersoll, 技术人员, Lucid Imagination简介: 当研究院和企业能获取足够的专项研究预算之后,能从数据和用户输入中学习
2013-02-04 10:36:57
1015
转载 Flume日志收集
一、Flume介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。设计目标:(1) 可靠性当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数
2013-02-04 10:29:01
8855
1
转载 Avro总结(RPC/序列化)
转自:http://langyu.iteye.com/blog/708568 Avro(读音类似于[ævrə])是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人,膜拜)牵头开发,当前最新版本1.3.3。Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理
2013-01-24 13:56:18
1335
原创 FileInputFormat setInputPaths 和 采用listStatus 对比
FileInputFormat.setInputPaths(job,paths) path可以给定给一个目录 系统会会从该目录下找打文件作为输入,但是如果给定的目录下面还有一层目录,则系统就不会再深入一层,并且可能会提示错误:13/01/22 18:12:56 WARN mapred.LocalJobRunner: job_local_0001java.io.FileNotFoundExc
2013-01-22 18:23:23
6243
原创 org.apache.hadoop.hbase.NotServingRegionException: Region is not online 错误
当遇到如下错误的时候 可能以为是regionserver 挂掉或者其他原因导致连接不上regionserver 但后面提示了Hbase 表statistic_login 具体信息Thu Jan 17 15:30:12 CST 2013, org.apache.hadoop.hbase.client.ScannerCallable@5ec136e9, org.apache.hadoop.hba
2013-01-17 15:42:21
9893
原创 hadoop Namenode因硬盘写满无法启动
当写元数据的分区写满,可能导致namenode挂掉从而导致及时清理出大块的空间也无法启动namenode,那此时系统namenode会报错org.apache.hadoop.hdfs.server.namenode.NameNode: java.lang.NumberFormatException: For input string:“”这是因为edit文件错误,此时执行 printf "
2013-01-16 13:09:17
3521
转载 关于hbase的read操作的深入研究 region到storefile过程
转自:http://www.blogjava.net/hello-yun/archive/2012/07/18/383425.html这里面说的read既包括get,也包括scan,实际底层来看这两个操作也是一样的。我们将要讨论的是,当我们从一张表读取数据的时候hbase到底是怎么处理的。分二种情况来看,第一种就是表刚创建,所有put的数据还在memstore中,并没有刷新到hdfs上
2013-01-14 16:38:07
2808
转载 hbase region, store, storefile和列簇,的关系
转自:http://zhb-mccoy.iteye.com/blog/1543492 The HRegionServer opens the region and creates a corresponding HRegion object. Whenthe HRegion is opened it sets up a Store instance for each
2013-01-14 14:25:39
11824
1
原创 mapred.map.tasks 如何影响map的个数
且具体到底产生多少个分片(split) 因为多少个map 是有关系。(此处是根据新的API来分析,因为新的API 终究要调用到就得API来做具体的动作)可能会说这个值 是系统根据文件大小 和根据文件分片大小 算出来的,那具体是如何算出来的呢,我们根据源码 一步一步来分析首先Job.submit()public void submit() throws IOException, Int
2012-08-06 20:21:24
12382
4
mapred.map.tasks 如何影响map的个数
且具体到底产生多少个分片(split) 因为多少个map 是有关系。(此处是根据新的API来分析,因为新的API 终究要调用到就得API来做具体的动作)可能会说这个值 是系统根据文件大小 和根据文件分片大小 算出来的,那具体是如何算出来的呢,我们根据源码 一步一步来分析首先Job.submit()public void submit() throws IOException, Inte...
2012-08-06 20:21:00
277
原创 hbase.hregion.max.filesize 默认值 到底是多少
看到不少的说明都说这个参数的默认值为256M 也就是当HStoreFile 大于这个文件时,就会split 成两个文件,这个从源码中能看到如下的内容conf.getLong("hbase.hregion.max.filesize",HConstants.DEFAULT_MAX_FILE_SIZE);而HConstants.DEFAULT_MAX_FILE_SIZE 正是 256*1024*
2012-07-27 18:18:02
9767
1
hbase.hregion.max.filesize 默认值 到底是多少
看到不少的说明都说这个参数的默认值为256M 也就是当HStoreFile 大于这个文件时,就会split 成两个文件,这个从源码中能看到如下的内容conf.getLong("hbase.hregion.max.filesize",HConstants.DEFAULT_MAX_FILE_SIZE);而HConstants.DEFAULT_MAX_FILE_SIZE 正是 256*1024*...
2012-07-27 18:18:00
1087
原创 Hadoop Mapreduce优先级调度
跑三个mapreduce 分别设置优先级VERY_HIGH,HIGH,NORMAL我认为 会等第一个mapreduce 完成之后 才开始第二个,第三个mapreduce结果不是这样,在第一个开始执行,不再堵塞的情况下 第二个、第三个就开始run了,且结束时间可能会在第二个第一个之前。
2012-07-05 10:44:28
2659
Hadoop Mapreduce优先级调度
跑三个mapreduce 分别设置优先级VERY_HIGH,HIGH,NORMAL我认为 会等第一个mapreduce 完成之后 才开始第二个,第三个mapreduce结果不是这样,在第一个开始执行,不再堵塞的情况下 第二个、第三个就开始run了,且结束时间可能会在第二个第一个之前。...
2012-07-05 10:44:00
165
subclipse-1.8.9
2012-05-15
Struts 开发入门与项目实战
2008-01-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人