
分布式
文章平均质量分 76
rzhzhz
不想一直菜下去……
展开
-
HTTP幂等性
本文转自:http://www.cnblogs.com/weidagang2046/archive/2011/06/04/2063696.html 基于HTTP协议的Web API是时下最为流行的一种分布式服务提供方式。无论是在大型互联网应用还是企业级架构中,我们都见到了越来越多的SOA或RESTful的Web API。为什么Web API如此流行呢?我认为很大程度上应归功于简单有效的转载 2012-01-31 10:59:07 · 3023 阅读 · 0 评论 -
Hadoop DataXceiver java.io.IOException: Connection reset by peer
最近执行mapreduce的时候老出现mapreduce的task执行不稳定的情况,有时候某个任务一直在重试,导致整个mapreduce一直处于一个阶段,就像卡住了一样,重试N久,最后可能几小时才执行完。于是乎只好查看各个目录下的log(问题跟踪解决http://blog.youkuaiyun.com/rzhzhz/article/details/7536285),发现datanode下出现了如下错误20原创 2012-04-27 15:49:48 · 5001 阅读 · 0 评论 -
Pig Hive对比
Pig Latin:数据流编程语言一个Pig Latin程序是相对于输入的一步步操作。其中每一步都是对数据的一个简单的变换。用Pig Latin编程更像在RDBMS中“查询规划器”(query planner)这一层对数据进行操作,查询规划器决定了如何将描述型语句转化为一系列系统化执行的步骤。Pig对它所处理的数据要求则宽松得多;可以在运行时定义模式,而且这是可选的。本质上,Pig可以原创 2012-05-11 16:27:55 · 18603 阅读 · 0 评论 -
Hadoop Map/Reduce内存限制
如何设置hadoop Map/Reduce任务的内存限制? ParameterTypeMeaningmapred.cluster.map.memory.mbset by admin, cluster-wideCluster definition of memory per map slot. The maximum am原创 2012-06-13 17:43:44 · 7948 阅读 · 0 评论 -
HBase MapReduce与Speculative Task
Speculative Task(推测式任务)是mapreduce框架中一个比较重要的优化策略。当某个server某个时间段处于忙碌状态而无法快速完成某个task(当然也可能是server本身性能低下),从而拖延了整个job的完成进度,此时若启用Speculative Task策略,jobtacker会为执行慢的task启动speculative task,多个相同的任务同时运行,哪个task原创 2012-06-19 16:43:16 · 5608 阅读 · 0 评论 -
HBase中Regionserver与Master时间不一致导致RegionServer无法启动ClockOutOfSyncException
启动HBase的时候,无法启动RegionServer,查看日志,错误如下2012-06-13 09:33:40,057 FATAL org.apache.hadoop.hbase.regionserver.HRegionServer: Master rejected startup because clock is out of syncorg.apache.hadoop.hbase.Cl原创 2012-06-13 18:33:06 · 28321 阅读 · 0 评论 -
HBase节点故障YouAreDeadException Server REPORT rejected
hbase性能测试,加载了一个晚上的数据,早上来时发现一个节点挂掉了,其他一切正常。查看日志,发下如下问题12/01/04 09:45:39 FATAL regionserver.HRegionServer: ABORTING region server serverName=hadoop5.site,60020,1325663355680, load=(requests=983, reg转载 2012-06-20 10:58:13 · 17586 阅读 · 0 评论 -
hadoop集群升级手札
之前集群的配置为hadoop-0.20.3,hbase-0.90.4,zookeeper-3.3.4,hive-0.8.1。hadoop还算稳定,基本没什么bug,而hive基于hbse查询时真是问题百出,hbase各种bug,比如丢数据,丢表,regionserver频繁宕机,各种打补丁,改错误搞得我脑袋都要爆了。于是决定给hbase来一个彻底的升级替换。一. 先是把hbase升级为原创 2012-06-29 11:51:37 · 10201 阅读 · 2 评论 -
Hadoop Map/Reduce教程
Hadoop Map/Reduce教程目的先决条件概述输入与输出例子:WordCount v1.0源代码用法解释Map/Reduce - 用户界面核心功能描述MapperReducerPartitionerReporterOutputCollector作业配置任务的执行和环境作业的提转载 2013-03-18 00:17:16 · 5026 阅读 · 0 评论 -
Flume相关参数介绍
Flume配置文件(flume-site.conf)1、 watchdog watchdog.restarts.maxwatchdog每分钟重启的最大数??? 2、 common node flume.config.heartbeat.periodnode发送心跳周期,默认5000(毫秒)转载 2012-04-13 15:07:45 · 11979 阅读 · 1 评论 -
flume安装及配置
Flume安装 介绍Flume本身的安装比较简单(flume的介绍请参考http://blog.youkuaiyun.com/rzhzhz/article/details/7448633),安装前先说明几个概念,先看flume的架构1. Flume分三种角色 Mater: master负责配置及通信管理,是集群的控制器。 Collector: col原创 2012-04-11 15:37:49 · 17052 阅读 · 0 评论 -
flume 几个比较有用的source、sink和decorator
Source catalog:1.Console 控制台输出,可以带输出内容格式的参数比如console(“raw”), console(“json”)2.text("filename"[, format])一次读取文件内容,每一个换行做为一个事件。3.tail("filename"[,startFromEnd=false]{,delim="regex", delimMode=转载 2012-04-11 15:01:58 · 9534 阅读 · 0 评论 -
Hadoop NameNode单点问题解决方案之一 AvatarNode
本文转自:http://weilaiyxj.iteye.com/blog/979003 翻译自Facebook Hadoop架构师(Dhruba Borthakur)的一篇文章 我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。 我们的团队负责管理一个1200节点的集群(总大小12PB),目前是运行版本为H转载 2012-02-06 08:38:56 · 4383 阅读 · 0 评论 -
HBase中的Client如何路由到正确的RegionServer
本文转自:http://www.spnguru.com/2010/07/hbase%e4%b8%ad%e7%9a%84client%e5%a6%82%e4%bd%95%e8%b7%af%e7%94%b1%e5%88%b0%e6%ad%a3%e7%a1%ae%e7%9a%84regionserver/ 在HBase中,大部分的操作都是在RegionServer完成的,Client端想要转载 2012-02-08 10:54:12 · 5772 阅读 · 0 评论 -
Hadoop&Hbase 备份方案--AvatarNode
Hadoop&Hbase 备份方案--AvatarNode 需求实现namenode的双机热备,保证Hadoop&Hbase的高可用性(HA)。 方案描述当主namenode所在服务器宕机的时候,其服务和数据可迅速,完整,无缝的迁移到备份namenode从而保证hadoop集群的高可用性,持续的向外提供服务。 测试环境虚拟机5台(1G内存,40G硬盘,ubu原创 2012-04-11 10:36:52 · 15040 阅读 · 0 评论 -
Cloudera Flume介绍
Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 上图的Flume的Architecture,在Flume中,最重要的抽象是data flow(数据流),data flo转载 2012-04-11 11:06:26 · 5822 阅读 · 0 评论 -
zookeeper集群安装
准备1. 下载zookeeper,下载地址http://www.apache.org/dyn/closer.cgi/zookeeper,此处为zookeeper-3.3.22. 分别解压至zookeepr集群机器(一般为基数台机器)相应目录(此处为$ZOOKEEPER_HOME),集群为mem1,mem2,mem3(hosts对应)。配置1.原创 2012-04-11 11:52:48 · 4037 阅读 · 0 评论 -
Hadoop 双机热备-AvatarNode部署
Hadoop 双机热备--AvatarNode部署部署环境虚拟机5台(1G内存,40G硬盘,ubuntu操作系统,Hadoop-0.20.2)hadoop1-virtual-machine 10.10.11.250 AvatarNode(primary)hadoop2-virtual-machine 10.10.11.152 AvataDataNodehadoop3-v原创 2012-04-11 10:34:46 · 19790 阅读 · 13 评论 -
Hive SQL语句中表名和查询字段名相同时不能执行解决办法
在执行hive查询的时候,SQL语句(eg.select action from action;)中如果表名和查询字段名相同时不能执行,报如下错误 FAILED: Error in semantic analysis: Line 1:7 Ambiguous table alias or column reference 'action'这是官方bug页,至今还是open状态原创 2012-04-27 15:32:38 · 9255 阅读 · 0 评论 -
Hadoop中Speculative Task调度策略
1. 背景Speculative Task,又叫推测式任务,是指在分布式集群环境下,因为程序bug,负载不均衡或者资源分布不均,造成同一个job的多个task运行速度不一致,有的task运行速度明显慢于其他task(比如:一个job的某个task进度只有10%,而其他所有task已经运行完毕),则这些task拖慢了作业的整体执行进度,为了避免这种情况发生,Hadoop会为该task启动spec转载 2012-05-04 21:55:17 · 26291 阅读 · 3 评论 -
由hbase.client.scanner.caching参数引发的血案
环境描述Hadoop 0.20.203.0Hbase 0.90.3Hive 0.80.1 问题描述 前几天,在HIVE执行SQL查询的时候出现了一个很奇怪的问题:就是每个SQL(涉及到MapReduce的SQL任务)在执行到某个百分比的时候,整个JOB会出现假死的情况。 2012-04-28 18:22:33,661 Stage-1 map = 0%原创 2012-05-04 23:19:24 · 9193 阅读 · 6 评论 -
关于flume中hbase插件数据误差的问题
前几天用到flume的日志收集,基于公司的业务对flume本身自带的hbase插件做了些改造,测试的时候却出现了丢数据和多数据的问题……1.首先查看collector的event数,是与原数据量相符的。所以在agent与collector的交互过程是没有问题的2.查看开发插件业务处理过程,看了好几遍感觉也没问题。3.于是问题只有可能出现在hbase的数据处理上了。本来是基于flume自原创 2012-04-25 19:41:43 · 4928 阅读 · 0 评论 -
HBase 官方文档0.90.4
HBase 官方文档0.90.4Copyright © 2010 Apache Software Foundation, 盛大游戏-数据仓库团队-颜开(译)Revision HistoryRevision 0.90.4配置,数据模型使用入门Abstract这是 Apache HBase的官方文档, Hbas转载 2012-07-16 15:47:17 · 5022 阅读 · 0 评论