
云计算
文章平均质量分 74
chinalgf
这个作者很懒,什么都没留下…
展开
-
高效删除hbase中多个表中记录
业务需要,经常需要将hbase中多个表中的记录数删掉,于是写了一个小工具。直接上代码啦:DeleteHbaseDataMain.javaimport java.io.IOException;import java.util.Iterator;import java.util.Map;import java.util.TreeMap;import java.util.concur原创 2013-01-06 11:17:03 · 1052 阅读 · 0 评论 -
hadoop错误集锦
http://bbs.hadoopor.com/thread-71-1-1.html转载 2013-04-23 17:01:53 · 507 阅读 · 0 评论 -
Oozie简介
在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新 的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。本文中,我们会向你介绍 Oozie以及使用它的一些方式。什么是Oozie?Oozie是一种Java Web应用程序,它运行在Ja转载 2013-05-07 13:56:53 · 499 阅读 · 0 评论 -
批量生成HFile格式方法
最近一直在搞批量生成HFile格式的代码,使用了好多方法,具体如下:方法一、KeyValue生成,代码大致如下:KeyValue kev = new KeyValue(Bytes.toBytes(row.toString()), Bytes .toBytes("info"), Bytes.toBytes(tableField), Bytes.toB原创 2012-05-29 18:06:59 · 1935 阅读 · 0 评论 -
hadoop集群容灾方案
一般情况下,hadoop集群备份机制采用默认的3份保存,如下图: hadoop集群filecopysizespacesample1.dat3100M3*100Msample2.dat3200M3*200Msample3.dat3150M3*150Msample4.原创 2013-05-22 15:55:52 · 4402 阅读 · 0 评论 -
zookeeper清除历史hbase、storm等版本
之前在集群上安装了hbase的一个版本,后来因该版本不稳定,切换为另一版本,这时候就需要清理zookeeper的记录了,具体方法如下:1.切换到zookeeper的bin目录;2.执行$sh zkCli.sh[hadoop@host hadoop]$ cd zookeeper-3.4.5/bin[hadoop@host bin]$ ./zkCli.sh Connecting to原创 2013-05-14 10:43:17 · 4123 阅读 · 1 评论 -
Hive任务优化--控制hive任务中的map数和reduce数
一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文转载 2013-02-28 17:49:14 · 356 阅读 · 0 评论 -
利用udf函数将hive统计结果直接插入到mysql
大部分利用hive做数据分析的步骤是先用hive将统计结果导出到本地文件或者Hive的其他表中,再将本地文件导入到mysql或者利用sqoop将Hive表导入到mysql中。今天同事给推荐了一个利用udf函数直接将统计结果导入mysql的方法。步骤为hive>add jar /usr/lib/hive/lib/hive-contrib-0.9.0-cdh4.1.2.jar;Adde转载 2013-02-28 17:26:06 · 505 阅读 · 0 评论 -
Hama-基于BSP模型实现并行计算
1 Hama介绍 Apache Hama是一个纯BSP(Bulk Synchronous Parallel)计算框架,模仿了Google的Pregel。用来处理大规模的科学计算,特别是矩阵和图计算。BSP概念由Valiant(2010图灵奖获得者)在1990年提出,具体参看wikipedia。Google在2009年发表了论文,在分布式条件下实现了BSP模型。2 Hama安装原创 2013-01-04 17:41:06 · 1328 阅读 · 0 评论 -
hadoop archive归并文档使用及测试
hadoop archive归并文档使用及测试。archive用法:[hadoop@hadoop9 jars]$ hadoop archive --helparchive -archiveName NAME -p * archive归并文件的时候会启动一个M/R Job任务来执行,如下:[hadoop@hadoop9 jars]$ hadoop archi原创 2012-05-15 10:37:53 · 570 阅读 · 0 评论 -
hadoop M/R 运行错误
2012-05-08 15:29:02,927 WARN org.apache.hadoop.hdfs.DFSClient: DFSOutputStream ResponseProcessor exception for block blk_-3688559193353374185_253276java.io.EOFExceptionat java.io.DataInputStream.readF原创 2012-05-08 16:41:10 · 1452 阅读 · 0 评论 -
hadoop 输出MultipleOutputs学习及应用情境
MultipleOutputs可以轻易的将输出数据输出为多个。案例一:writing to additional outputs other than the job default output.案例二:to write data to different files provided by user举例: * Usage pattern for job subm原创 2012-05-15 15:10:53 · 1616 阅读 · 0 评论 -
hbase查询一条数据的过程(转)
HBase中的Client如何路由到正确的RegionServer在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer?就是管理你要操作的那个Region的RegionServer。Client本身并不知道哪个RegionServer管理哪个Region,那么转载 2012-06-13 14:10:07 · 1112 阅读 · 1 评论 -
优化Map Reduce Jobs,技术实现投资回报
一说到大数据,就不得不提Hadoop;一提到Hadoop,就必要关注Map/Reduce。众所周知,作为一个使用简易的软件框架,基于Map/Reduce的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理TB级别以上的数据集。讲述Map/Reduce的框架构成和逻辑工作原理的文章已经很多,这些博文都不错(可以在雅虎开源社区搜索下),但是这些文章尽管解释了技术层面,但转载 2012-09-21 15:39:47 · 546 阅读 · 0 评论 -
深入理解Hadoop集群和网络
导读:云计算和Hadoop中网络是讨论得相对比较少的领域。本文原文由Dell企业技术专家Brad Hedlund撰写,他曾在思科工作多年,专长是数据中心、云网络等。文章素材基于作者自己的研究、实验和Cloudera的培训资料。本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。Hadoop里的服务器转载 2012-09-21 15:53:17 · 1286 阅读 · 0 评论 -
Storm实时处理安装部署
1 Storm概览 如果只用一句话来描述storm的话,可能会是这样:分布式实时计算系统。按照storm作者的说法,storm对于实时计算的意义类似于hadoop对于批处理的意义。我们都知道,根据google mapreduce来实现的hadoop为我们提供了map, reduce原语,使我们的批处理程序变得非常地简单和优美。同样,storm也为实时计算提供了一些简单优美的原语原创 2013-01-06 10:52:35 · 1305 阅读 · 0 评论 -
hadoop+storm+hama控制台截图对比
1.hadoop集群的mapreduce监控:2.storm监控:3.hama监控:原创 2013-01-06 14:50:44 · 874 阅读 · 0 评论 -
Hbase经验总结
不知不觉,搞hbase也有一段时间了,期间有痛苦,也有欢乐,不管过程有多么艰难与漫长,但结果还是可喜的。现总结一下hbase在使用过程中的一些经验和看法:1.源码在学习的过程中,要敢于碰 源码。虽然不一定所有的源码都要看,但是也要针对自己要解决的问题,查找源代码,其实大牛们写的代码是比较费劲,但是只要静下心来看,还是有很大收获的。另外,不要全部相信源码,有时候源码中会有很多bug,原创 2013-01-07 10:36:47 · 1801 阅读 · 1 评论 -
HBase索引
HBase索引过程的实现确实是一个头两个大,一直在研究这方面的资料,苦不堪言呐!不过经过一系列的测试和分析,得出一个结论:自己创建索引!理由有二:一、ITHBase、IHBase等等三方项目创建索引,基本思路就是创建一个额外的索引表,然后建立同步机制。这样问题来了: 1.冗余比较大。我做过ITHBase的实验,基本是原表的每行数据在索引表中都创建一条,如下:原创 2012-08-29 15:42:02 · 3664 阅读 · 3 评论 -
百度识图 —— 有意思
前端专家——远星本人出场技术大拿——东杰原创 2012-12-29 13:27:40 · 521 阅读 · 0 评论