
云计算
文章平均质量分 82
wf1982
这个作者很懒,什么都没留下…
展开
-
Hadoop MultiOutputs 实现
工作中有人问 MultiOutputs 实现为啥在指定reduce数为1时 结果文件数依然是 好多个?这其实由其实现逻辑决定的。在MR中 一般job都可以通过map reduce 默认的OutputCollector 实现 写入作业初始化时指定格式的输出中,只能一个文件格式。当需要将结果分门别类区分或者使用不同格式存储在多个文件结果中时 就需要 MultiOutputs了。Mul原创 2014-02-24 14:14:06 · 7960 阅读 · 1 评论 -
hive基本用法汇总(部分)
看到的文章,总结的很好,转载一下:原文http://www.jiacheo.org/blog/1261, 创建表?123456CREATETABLEpage_view(viewTime INT, userid BIGINT,page_url STRING, refer转载 2012-06-09 07:37:52 · 21358 阅读 · 0 评论 -
hive udtf的使用
原文:http://blog.linezing.com/2011/03/hive%E4%B8%ADudtf%E7%BC%96%E5%86%99%E5%92%8C%E4%BD%BF%E7%94%A81. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many mapin转载 2012-06-01 15:46:01 · 25303 阅读 · 1 评论 -
hadoop出现元数据不能更新且SNN合并失效
问题表现: NameNode 保存edits文件 停留在5.3号凌晨。SNN执行合并文件报 空指针错误,导致无法正常合并元数据原因:要弄清原因首先需要清楚SNN合并流程,NN写editslog流程等等。简单说来如下:1 在5.3号 SNN合并文件后并成功将合并的数据put到NN。当NN在关闭临时edit文件edit.new,打开edits文件时报错:unable to原创 2012-05-09 18:26:16 · 2268 阅读 · 0 评论 -
Hprof使用及在Hadoop中MR任务使用
J2SE中提供了一个简单的命令行工具来对java程序的cpu和heap进行 profiling,叫做HPROF。HPROF实际上是JVM中的一个native的库,它会在JVM启动的时候通过命令行参数来动态加载,并成为 JVM进程的一部分。若要在java进程启动的时候使用HPROF,用户可以通过各种命令行参数类型来使用HPROF对java进程的heap或者 (和)cpu进行profiling的功转载 2012-03-22 16:54:24 · 3245 阅读 · 0 评论 -
hadoop metrics 各参数解释
研究使用hadoop的人 对hadoop中详细的计数器有所了解,但是很多人在想完全清楚所有metrics时 发愁找不到资料。而且在代码中查找时介绍也比较少。先罗列出所有。dfs.datanode.blockChecksumOp_avg_time 块校验平均时间dfs.datanode.blockChecksumOp_num_ops 块检验次数dfs.datanode.blockRe原创 2012-04-06 16:49:04 · 7592 阅读 · 2 评论 -
hive 全排序优化
全排序Hive的排序关键字是SORT BY,它有意区别于传统数据库的ORDER BY也是为了强调两者的区别–SORT BY只能在单机范围内排序。考虑以下表定义:CREATE TABLE if not exists t_order( id int, -- 订单编号 sale_id int, -- 销售ID customer_id int, -- 客户ID produc原创 2012-03-19 15:56:39 · 5983 阅读 · 0 评论 -
MR任务中默认counter意义
Counter有"组group"的概念,用于表示逻辑上相同范围的所有数值。MapReduce job提供的默认Counter分为五个组,下面逐一介绍。这里也拿我的一份测试数据来做详细比对,它们会以表格的形式出现在各组描述中。 FileInputFormatCounters 这个group表示map task读取文件内容(总输入数据)的统计原创 2012-03-02 17:00:15 · 1919 阅读 · 1 评论 -
HBase存储架构
原文:http://www.blogjava.net/hengheng123456789/archive/2010/12/31/342074.html英文原文:http://www.larsgeorge.com/2009/10/hbase-architecture-101-storage.htmlHBase最隐秘的问题之一就是它的数据是如何存储的。虽然大多数用户都不会因为这个问转载 2012-07-11 22:22:11 · 6386 阅读 · 0 评论 -
hbase应用优化相关
转载自:http://www.cnblogs.com/panfeng412/archive/2012/03/08/hbase-performance-tuning-section1.html本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第一部分内容:表的设转载 2012-07-13 10:41:03 · 6591 阅读 · 0 评论 -
NameNode federation
原链:http://blog.youkuaiyun.com/azhao_dn/article/details/7480201从0.23.0开始,Hadoop开始支持分布式NameNode,通过NameNode federation的形式实现。这样实现了NameNode的横向扩展,使得Hadoop集群的规模可以达到上万台。1,分布式NameNode基本原理和设计HDFS存储包转载 2012-07-27 13:13:07 · 8817 阅读 · 0 评论 -
cdh4.2 在mac OS X10.9.1下编译
编译 hadoop-2.0.0-cdh4.2下载 tar 包http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH-Version-and-Packaging-Information/cdhvd_topic_6_1.html 安装maven 3.0.5 并配置环境变量 M原创 2014-01-15 18:47:44 · 9031 阅读 · 0 评论 -
为多租户场景集群配置Impala和Mapreduce
原文标题:Configuring Impala and MapReduce for Multi-tenant Performance(http://blog.cloudera.com/blog/2013/06/configuring-impala-and-mapreduce-for-multi-tenant-performance/)为多租户场景集群配置Impala和Mapreduce翻译 2013-08-10 11:18:39 · 12705 阅读 · 1 评论 -
如何使用vagrant在虚拟机安装hadoop集群
原文地址:http://blog.cloudera.com/blog/2013/04/how-to-use-vagrant-to-set-up-a-virtual-hadoop-cluster/vagrant 是一个非常好用的工具,可以用它来在单台物理机器编程管理多个虚拟机(vms)。其支持原生VirtualBox,并同时提供了对VMware Fusion、Amazon EC2虚拟机集群的翻译 2013-04-14 09:11:56 · 12037 阅读 · 1 评论 -
关于hadoop mapreduce的job cleanup阶段
近段时间发现好多分析的mr作业延迟1个小时到2个小时,其实那个作业平时可能会只需要20分钟。分析作业状态发现延迟是在job的cleanup阶段。 近段时间由于用户的增长及数据的持续飙升,集群作业越来越多,每个作业占用槽位也不断增长,导致集群槽位紧张,所以集群出现排队现象本来运算正常,但是如果整个作业setup、map、reduce都处理完了,仅剩cleanup(极其轻量)没执行完导原创 2013-03-29 18:33:36 · 11083 阅读 · 2 评论 -
hive sequencefile 和rcfile 效率对比
源数据放在test1表中,大小 26413896039 Byte。创建sequencefile 压缩表test2,使用insert overwrite table test2 select ...语句将test1数据导入 test2 ,设置配置项:set hive.exec.compress.output=true;set mapred.output.compress=tru原创 2012-09-17 17:32:14 · 11525 阅读 · 0 评论 -
Google Dremel 原理 - 如何能3秒分析1PB
原链:http://www.yankay.com/google-dremel-rationale/简介Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有力补转载 2012-08-24 13:29:45 · 5720 阅读 · 0 评论 -
hadoop默认参数
1 常用的端口配置1.1 HDFS端口 参数描述默认配置文件例子值fs.default.name namenodenamenode RPC交互端口8020core-site.xmlhdfs://ma转载 2012-08-14 18:47:08 · 14281 阅读 · 0 评论 -
NameNode HA 采用方案
原文:http://yanbohappy.sinaapp.com/?p=50Hadoop的设计初衷是服务于off-line的数据存储和处理应用。随着这个产品的不断成熟和发展,对于支持on-line应用的需求越来越强烈。例如HBase已经被Facebook和淘宝用到了在线存储应用中。所以Hadoop的on-line化也是一个趋势。目前制约Hadoop作为on-line存储和处理的转载 2012-07-27 13:20:09 · 13593 阅读 · 1 评论 -
splunk 测试报告
Splunk使用测试报告一、技术组件及原理1. Indexer 将本地或远程日志数据做索引。工作机制:可以对具有时间线的任何格式的日志数据做索引。这个索引动作是基于时间戳将数据打乱后放入events中,每个events包含时间戳、host、source、source type属性。一般一行日志就是一个event,如果是xml logs,可能被分解成多个events.当用户搜索时,原创 2012-01-19 18:21:28 · 7681 阅读 · 1 评论 -
新浪微博架构演讲---转载至新闻
转载自:http://tech.sina.com.cn/i/2010-11-16/14434871585.shtml 以下为演讲实录: 大家下午好,在座的大部分都是技术开发者,技术开发者往往对微博这个产品非常关心。最晚的一次,是12点多收到一个邮件说想了解一下微博底层是怎么构架的。很多技术人员对微博的构架非常感兴趣,就是一个明星他有300万粉丝,这个技术怎么来实现?今天在这里跟大转载 2012-01-17 11:45:08 · 1271 阅读 · 0 评论 -
下一代Apache Hadoop MapReduce框架的架构
转自 http://dongxicheng.org/mapreduce-nextgen/nextgen-mapreduce-introduction/ 懂的博客背景随着集群规模和负载增加,MapReduce JobTracker在内存消耗,线程模型和扩展性/可靠性/性能方面暴露出了缺点,为此需要对它进行大整修。需求当我们对Hadoop MapRed转载 2012-01-14 11:20:23 · 1466 阅读 · 0 评论 -
使用HDFS来进行线上应用的文件存储
这段时间公司使用的hadoop组件hdfs存储图片经常出现上传超时的问题,经过分析后发现了原因:先说下情况吧,目前公司有一个Namenode,1个secondarynamenode和4个datanode。 应用端通过一个hadoopservice去上传图片,原创 2011-07-06 17:57:12 · 2056 阅读 · 1 评论 -
mapreduce eclipse plugin使用
<br /><br />本机的环境如下:<br />Eclipse 3.6<br />Hadoop-0.20.2<br />Hive-0.5.0-dev<br />1. 安装hadoop-0.20.2-eclipse-plugin的插件。注意:Hadoop目录中的/hadoop-0.20.2/contrib /eclipse-plugin/hadoop-0.20.2-eclipse-plugin.jar在Eclipse3.6下有问题,无法在 Hadoop Server上运行,可以从http://code.g原创 2011-03-25 18:01:00 · 5638 阅读 · 0 评论 -
PaaS平台下单点登录实现方案
<br />PaaS平台下单点登录实现方案<br /><br />在云计算平台中,包含了诸多平台的各个组件,同时也包含有其他ISV提供的应用。为了方便租户在登录平台后能方便使用平台的组件服务,和已订阅的isv应用服务。平台上需要提供单点登录组件SSO。<br /><br /> 平台可以看作是IDP(Identity Provider),平台组件或ISV提供的服务都可以看作是SaaS服务。<br /><br /> 这样SSO可以根据发起端分为 从IDP发起和从SaaS发起。<br />下图是 从原创 2011-02-12 12:57:00 · 1340 阅读 · 0 评论 -
Hadoop命令大全
<br />1、列出所有Hadoop Shell支持的命令<br /> $ bin/hadoop fs -help<br />2、显示关于某个命令的详细信息<br /> $ bin/hadoop fs -help command-name<br />3、用户可使用以下命令在指定路径下查看历史日志汇总<br /> $ bin/hadoop job -history output-dir<br />这条命令会显示作业的细节信息,失败和终止的任务细节。<br />4、关于作业的更多细节,比如成功的任务,以及原创 2011-03-01 15:04:00 · 35241 阅读 · 1 评论 -
Hadoop学习(一)
<br />今天刚刚从hadoop网址下载了edition 0.21,上传到公司内网 server上试了一把。<br /> <br />跟着官方网站走了一趟,在执行<br />Format a new distributed-filesystem:<br />$ bin/hadoop namenode -format<br />后执行<br />Start the hadoop daemons:<br />$ bin/start-all.sh <br />时报错:<br /> <br /> <br />20原创 2011-03-01 14:37:00 · 11999 阅读 · 0 评论 -
Hadoop基本操作
<br />在这篇文章中,我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。<br /><br />假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。<br /><br />启动与关闭<br />启动Hadoop<br />1. 进入HADOOP_HOME目录。<br /><br />2. 执行sh bin/start-all.sh<br /><br />关闭Hadoop<br />1. 进入HADOOP_HOME目录。<br /><br />2. 执行sh原创 2011-03-01 15:23:00 · 2024 阅读 · 0 评论 -
MapReduce和关系型数据库的对比以及如何理解规范性数据需要非本地操作
<br /><br />根据Hadoop权威指南一书,总结了<br />MapReduce 与 关系型数据库的区别:<br /> <br />1 数据访问模式受限于磁盘寻址,磁盘寻址时间提高速度远远小于数据传输速率提高速度。对于超大规模数据(以PB为单位)必须考虑使用其他方式。关系型数据库使用B树结构进行数据的更新查询操作,对于最大到GB的数据量,一般相对数据量较小,效果很好。但是大数据量时,B树使用排序/合并方式重建数据库以更新数据的效率远远低于MapReduce。<br /> <br />2 MapR原创 2011-01-24 12:06:00 · 2183 阅读 · 2 评论 -
谈下自己了解的云计算
<br />2010年里,云计算发展异常迅猛,分布式架构 ,并行运算,分布存储,Hadoop,Map Reduce ,SAAS,PAAS,IAAS 等词非常受人追捧。国内几大网络公司包括百度,新浪等也紧随google,Amazon开放了各自的app开放平台。当然相对于开放平台,IBM,Microsoft就属于封闭式云计算平台了。<br /> <br />1 Google GAE<br /> <br />GAE(Google App Engine)。GAE也是Google云计算的一部分,是一个互联网应原创 2011-01-18 13:50:00 · 872 阅读 · 0 评论 -
hadoop基准测试
Hadoop 集群基准测试一、测试条件集群完全安装配置后,应立即开始基准测试。基准测试时集群里不应该运行其他一切任务。二、测试目标1. 硬盘故障:新系统最常见的故障。可以通过运行高强度的IO基准测试程序集中测试。例如TestDFSIO2. MapReduce的原创 2011-09-09 15:24:18 · 9246 阅读 · 1 评论 -
Clouder CDH3B3开始后hadoop.job.ugi不再生效
Clouder CDH3B3开始后hadoop.job.ugi不再生效!困扰了我好几天的,终于找到了原因。以前公司用的原版hadoop-0.20.2,使用java设置 hadoop.job.ugi为正确的hadoop用户和组即可正常访问hdfs并可创建删除等。更新原创 2011-08-25 23:04:51 · 7590 阅读 · 1 评论 -
rpm安装和卸载脚本的工作原理[重点关注]
http://www.ibm.com/developerworks/cn/linux/management/package/rpm/part3/安装和卸载脚本的工作原理安装和卸载脚本看起来很简单,但它们工作原理中的一些意外可能会引起大问题。转载 2011-10-12 15:02:41 · 2334 阅读 · 0 评论 -
map join优化
转载:http://www.gemini5201314.net/hadoop/hadoop-%E4%B8%AD%E7%9A%84%E4%B8%A4%E8%A1%A8join.html为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各种不同的算法论文出现,讨论各种算法转载 2012-01-14 11:09:47 · 6742 阅读 · 0 评论 -
Oozie介绍
首先本人以前还真不知道Oozie这个东东,经别人说才知道,所以感觉也是比较惭愧。毕竟正在做的项目DIP-DATA-ANALYZE与这个有些共同处,就是提供类似工作流的机制更好的调度任务。不过Oozie支持的更多,支持了pig,直接mr,streaming。我们目前是基于hive的,当然也可以支持streaming,mr,不过目前还没有。 另外一个不同是Oozie使用自定义的xml原创 2012-01-14 15:35:27 · 23968 阅读 · 1 评论 -
hadoop作业调优参数整理及原理
在淘宝重新看了下hadoop作业相关参数的知识,一并转载过来http://www.tbdata.org/archives/1470/comment-page-1#comment-5341hadoop作业调优参数整理及原理1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时转载 2012-01-14 11:35:28 · 1138 阅读 · 1 评论 -
GREENPLUM简介
原帖:http://www.itpub.net/thread-1409964-1-1.html什么是GREENPLUM?对于很多IT人来说GREENPLUM是个陌生的名字。简单的说它就是一个与ORACLE, DB2一样面向对象的关系型数据库。我们通过标准的SQL可以对GP中的数据进行访问存取。GREENPLUM与其它普通的关系型数据库的区别?本质上讲GREENPLUM是一个转载 2012-01-07 11:44:29 · 43221 阅读 · 18 评论 -
使用mapjoin效率对比
MAPJION会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map是进行了join操作,省去了reduce运行的效率也会高很多使用一个表测试,该表时5分钟表,数据很少,大概60多w。测试日志里包含多个字段,其中有uid和uip。测试场景为给出2个uid,取uid共同的uip。三个不同uidselect /*+原创 2011-12-26 17:09:51 · 3954 阅读 · 0 评论 -
几个与JVM相关的JDK工具:jps, jstat, jmap
在项目中遇到OOM(Out of Memory)的问题,为了分析内存和JVM的垃圾回收器GC问题,一并把JVM相关的一些工具也研究了一下:jps:Java进程查看工具,实际上它和Unix/Linux上面的ps命令的功能差不多jstat:Java内存使用情况监控工具jmap:输出JVM内存中对象的工具这些工具位于JAVA_HOME/bin目录下?一转载 2011-10-14 14:08:40 · 1747 阅读 · 0 评论 -
2011hadoop技术大会实时数据分析
facebook在这次大会上谈了facebook的进展。他们以前架构是 applicationserver 将日志近乎实时的通过facebook自己的流传送工具scribe,传送到nfs。然后通过一个copyier或者loader(这里考虑应该是使用hive的load 到hive内表中)每小时载入hive/hadoop,r然后通过每天的pipeline jobs 运行任务 将结原创 2011-12-06 23:55:57 · 2738 阅读 · 1 评论