
hadoop
文章平均质量分 74
豹先生_MR-BAO
做中国云计算导航人~~~~~
展开
-
eclipse远程方式调试hadoop-yarn
远程调试hadoop-yarn需要三步走即可:1,已debug模式启动hadoop-yarn集群,比如想要eclipse debug跟踪resourcemanager,在hadoop安装目录下找到$hadoop_home/etc/hadoop/yarn-env.sh文件添加如下一句话YARN_RESOURCEMANAGER_OPTS="$YARN_RESOURCEMANAGER_O原创 2014-01-03 14:29:19 · 3324 阅读 · 1 评论 -
Hadoop集群性能优化技术研究
摘要:Hadoop技术已经在互联网领域得到广泛的应用,同时也得到了学术界的普遍关注。该文介绍了Hadoop作为基础数据处理平台仍然存在的问题,阐明了Hadoop性能优化技术研究的必然性,并介绍了当前Hadoop优化的三个主要思路:从应用程序角度进行优化、对Hadoop系统参数进行优化和对Hadoop作业调度算法进行优化。Hadoop集群优化对于提高系统性能和执行效率具有重大的意义。 [如转载 2013-02-23 14:15:22 · 1123 阅读 · 0 评论 -
为Hadoop的namenode做NFS灾备步骤
这里我简单的描述下如何给Hadoop的namenode做NFS灾备(以ubuntu为例)1.首先选定一台灾备机器作为NFS服务器 (1)安装如下: apt-get install nfs-kernel-server (NFS服务器,提供nfs服务) apt-get install转载 2013-02-08 10:55:05 · 598 阅读 · 0 评论 -
云计算平台管理的三大利器Nagios、Ganglia和Splunk
文 / 杨俊华综合利用Nagios、Ganglia和Splunk搭建起的云计算平台监控体系,具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统,就可轻松管理Hadoop/HBase云计算平台。云计算早已不是停留在概念阶段了,各大公司都购买了大量的机器,开始正式的部署和运营。而动辄上百台的性能强劲的服务器,为运营管理带来了巨大的挑战。如果没有方便的监控报警平台,对转载 2013-02-08 10:53:21 · 508 阅读 · 0 评论 -
hadoop、hbase异常集锦
1,Re: IllegalArgumentException: Not a host:port解决办法:1,connect to a 0.92 hbase with 0.90 client 2,0.92 hbase and then reverted to 0.90 without clearing zk data?2,jobtracker.info could only原创 2012-04-26 15:07:22 · 1273 阅读 · 0 评论 -
在Eclipse中运行第一个MapReduce程序
这是Hadoop学习全程记录第2篇,在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序。 新说明一下我的开发环境: 操作系统:在windows下使用wubi安装了ubuntu 10.10 hadoop版本:hadoop-0.20.2.tar.gz Eclipse版本:eclipse-jee-helios-SR1-linux-gtk.tar.gz转载 2011-12-12 19:33:54 · 1993 阅读 · 0 评论 -
mapreduce性能调优(多层面:调度、配置、程序),持续工作
一,调度器的考量(目前自带两种调度器):Capacity Scheduler:@ numSlotsOccupied:正在running的task占用的slot总数,注意,在Capacity Scheduler中,running task与slot不一定是一一对应的,每个task可获取多个slot,这主要是因为该调度支持内存资源调度,某个task可能需要多个slot包含的内存量。原创 2012-04-06 14:53:41 · 1443 阅读 · 0 评论 -
mapreduce中Cannot load JDBC driver class 'net.sourceforge.jtds.jdbc.Driver' 异常分析
因为mapreduce牵扯到了用spring,hibernate开源框架,引入之后报如下错误(在普通web工程中是没问题的):org.apache.commons.dbcp.SQLNestedException: Cannot load JDBC driver class 'net.sourceforge.jtds.jdbc.Driver' at org.apache.com原创 2012-02-29 15:05:37 · 2834 阅读 · 1 评论 -
解决hadoop mapreduce 包依赖问题
使用hadoop时,我们有时会自写一些mapreduce的应用,我们可能会用到一些第三方的包。如果不做任何处理,在job执行的就会报ClassNotFound的Exception.有四种处理方法:1. 把要依赖的包部署到每台task tracker上面这个方法最简单,但是要部署到每台task tracker,而且可能引起包污染的问题。比如应用A和应用B都用到同一个libray,原创 2012-02-28 14:31:20 · 1854 阅读 · 0 评论 -
利用Ant构建hadoop mapreduce jar包并自动上传服务器
最近Hadoop的研究中,都是利用Mockito来模拟数据进行,下一个阶段需要在Hadoop服务器上做大量的运行进行验证,同时也要为正式使用做准备。 今天考虑使用Ant来搭建一个Hadoop的开发和调试环境,不使用hadoop自带的插件。思路如下:1、 利用Ant在开发机器上将代码编译、打包,最终得到可执行的jar包。2、 利用Ant的SSH属性,将ja转载 2012-02-28 11:10:48 · 1791 阅读 · 0 评论 -
mapreduce ENOENT: No such file or directory异常
Error initializing attempt_201202221208_0010_m_000018_0:ENOENT: No such file or directory at org.apache.hadoop.io.nativeio.NativeIO.chmod(Native Method) at org.apache.hadoop.fs.RawLocalFileSystem.s原创 2012-02-27 14:31:15 · 5305 阅读 · 1 评论 -
HBase 数据文件在HDFS上的存储
在HDFS上面最不明确的事情之一就是数据的冗余。它完全是自动进行的,因为无法得知其中详细的信息,我们需要做的就是相信它。HBase完全相信HDFS存储数据的安全性和完整性,并将数据文件交给HDFS存储。正是因为HDFS的数据冗余方式对于HBase来说是完全透明的,产生了一个问题:HBase的效率会受到多大的影响?说的简单一点,当HBase需要存取数据时,如何保证有一份冗余的数据块离自己最近?当我们转载 2011-12-07 11:38:23 · 2720 阅读 · 0 评论 -
让cygwin使用英文shell界面
搜索结果里充斥着大量让cygwin显示中文的文章以及各种版本转载,我不知道转载这些文章的同学到底自己亲自试验过没有,显示出来的中文往往只显示一半,这样也能算能显示中文了?这么多坑爹的结果,却没有一个告诉大家怎么使用英文界面的方法?目前的cygwin的shell界面往往是由windows的localization设定决定的,所以如果你将local设定为中国,那么界面默认都是已经能显示中文的了。但转载 2011-12-05 18:19:21 · 2646 阅读 · 0 评论 -
HBase 架构101 –预写日志系统 (WAL)
HBase 架构101 –预写日志系统 (WAL)原文:http://www.larsgeorge.com/2010/01/hbase-architecture-101-write-ahead-log.html什么是预写日志WAL? 之前的文章我们简单介绍了HBase的存储结构。其中提到了预写日志。这里,我们要介绍它的实现细节,所有的描述都基于HBase 0.20.3.WAL最重转载 2011-11-09 18:11:26 · 1792 阅读 · 0 评论 -
使用Ganglia监控Hadoop
Hadoop本身提供了很多监控工具的接口,如JMX、Nagios、Ganglia等。使用Ganglia监控hadoop,配置起来非常简单,只需要修改$HADOOP_HOME/conf/hadoop-metrics.properties文件,把相关的配置段修改为下面的示例:# Configuration of the "dfs" context for ganglia # Pick one: G转载 2011-11-08 11:56:41 · 2161 阅读 · 0 评论 -
hadoop Capacity Scheduler使用手记
由于集群资源有限,为了保证重要任务能够分配到足够的槽位,决定将hadoop的HIHO调度器换成Capacity Scheduler (Fair Scheduler无法实现最大槽位占有限制)。 首先修改mapred-site.xml,在其中添加配置项:[html] view plaincopyproperty> name>mapred.jobtracke转载 2013-02-23 14:46:54 · 798 阅读 · 0 评论 -
MapReduce高级编程之自定义InputFormat
InputFormat是MapReduce中一个很常用的概念,它在程序的运行中到底起到了什么作用呢?InputFormat其实是一个接口,包含了两个方法:public interface InputFormat { InputSplit[] getSplits(JobConf job, int numSplits) throws IOException; RecordReade转载 2013-02-23 15:03:56 · 740 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2013-02-23 14:18:36 · 562 阅读 · 0 评论 -
LINUX系统下解决time_wait 连接数过多问题
经常检查apache的连接数,会发现很多无用的time_wait连接。有人说这是正常的,是因为一个请求中途中断造成的;还有人说微软的IE连接时产生的Time_wait会比用Firefox连接时多。个人认为有一定的Time_wait是正常的,如果超过了连接数的比例就不是很正常,所以还是找来方法解决一下。 先检查一下time wait的值: [root@aaa1 ~]#sysctl -a转载 2013-10-21 09:39:36 · 3353 阅读 · 0 评论 -
淘宝Hadoop集群机器硬件配置
国内外使用Hadoop的公司比较多,全球最大的Hadoop集群在雅虎,有大约25,000个节点,主要用于支持广告系统与网页搜索。国内用Hadoop的主要有百度、淘宝、网易、华为、中国移动等,其中淘宝的Hadoop集群属于较大的(如果不是最大)。淘宝Hadoop集群现在超过1700个节点,服务于用于整个阿里巴巴集团各部门,数据来源于各部门产品的线上数据库(Oracle, MySQL)备份,系转载 2013-09-23 14:00:06 · 2604 阅读 · 0 评论 -
hadoop 0.23的容量调度器简介(Hadoop MapReduce Next Generation - Capacity Scheduler)
原文:http://hadoop.apache.org/common/docs/r0.23.0/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html这个文档描述了CapacityScheduler,一个可插入的hadoop调度器,它可以使的多个用户可以安全的共享一个大的集群,他们的应用程序可以在容量限度下获取到需要的资源。概述Capac转载 2013-09-23 13:58:55 · 980 阅读 · 0 评论 -
HIVE在腾讯分布式数据仓库实践
摘要:在12月1日“Hadoop生态系统”主题分论坛,腾讯高级工程师赵伟首先介绍了他们的TDW核心架构,HIVE,MapReduce,HDFS及PostgreSQL构成。赵伟分享了最核心的HIVE模块在TDW中的实践经验;HIVE是一个在Hadoop上构建数据仓库的软件,它支持通过类SQL的HQL语言对结构化数据进行操作;实现了基本的SQL功能,可扩充UDF/UDAF、...【优快云现场报道转载 2013-09-18 10:12:32 · 2247 阅读 · 0 评论 -
基于myhout探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类
聚类分析什么是聚类分析?聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster),它的目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。所以,在很多应用中,一个簇中的数据对象可以被作为一个整体来对待,从而减少计算量或者提高计算质量。其实聚类是一个人们日常生活的常见行为,即所谓“物以类聚,人以群分”,核心的思想也就是聚类。人们总是不断转载 2013-02-27 18:04:41 · 940 阅读 · 0 评论 -
基于myhout探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探
“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章,将深入介绍推荐引擎的工作原理,和其中涉及的各种推荐机制,以及它们各自的优缺点和适用场景,帮助转载 2013-02-27 18:00:50 · 802 阅读 · 0 评论 -
MapReduce高级编程之本地聚集与Combinner
本篇主要介绍Combinner,这个MapReduce Shuffle中占有重要地位,他能减少磁盘I/O以及网络Fetch时的数据迁移量,在MapReduce Shuffle中存在着三次排序(Map端两次,reduce端一次),每次排序时便会用上一次Combinner函数,也就是这个可有可无的函数一旦定义会被三次调用~~ 然而Combinner的使用需要注意程序的差错性,而且有些情况是转载 2013-02-23 15:04:39 · 671 阅读 · 0 评论 -
MapReduce高级编程之自定义DataType
Hadoop是用JAVA语言实现,然而它的基本数据类型却不是标准的JAVA对象,而是对他们的一个封装,序列化 序列化是指将结构化对象转换为字节流,以便于在网络上进行传输或写到磁盘进行永久存储 Hadoop常用的数据类型有: 这一套数据类型虽然能满足大部分的需求,但有些情况下要写出更灵活的程序,还是需要定制自己的Writable类型转载 2013-02-23 15:03:18 · 611 阅读 · 0 评论 -
MapReduce高级编程之mapreduce间的组合式,迭代式,链式
前面介绍一些怎样用户类制定自己的类,来达到减少中间数据:http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html1.迭代式mapreduce 一些复杂的任务难以用一次mapreduce处理完成,需要多次mapreduce才能完成任务,例如Pagrank,Kmeans算法都需要多次的迭代,关于mapreduce迭代在转载 2013-02-23 15:02:38 · 874 阅读 · 0 评论 -
YCSB 对HBase 性能测试
我认真的在想,关在牢里面的人,不一定比放在外面的人坏。 -- 三毛 这篇文章放草稿箱快两个多月了,今天突然被告知,要换方向,看了近三个月的HBase就这样别了,很突然。 刚开始装上HBase系统,再还没什么应用的情况下,就不知拿着它干嘛,好吧,测试一下。 HBase的版本是:0.90.5 Hadoop的版本是:1.0.0,分布式部署,一共四个节点。 测试工具是:YC转载 2013-02-23 14:58:35 · 961 阅读 · 0 评论 -
Hadoop中常用的InputFormat、OutputFormat(转)
Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据,每一个Map Reduce程序都离不开它们。Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的:TextInputFormat 作为默认的文件输入格式,用于读取纯文本文件,文件被分为一系列以LF或者CR结束的行,key是每一转载 2013-02-23 14:53:51 · 1200 阅读 · 0 评论 -
hadoop 各类key value分隔符参数
原文地址:http://wingmzy.iteye.com/blog/1260570hadoop中的map-reduce是处理这样的键值对,故指定的分割符等参数可以分成三类:map输出时分割符分桶时的分隔符reduce输出时的分割符下面分别叙述:1. map输出时分割符参数:stream.map.output.field.sepa转载 2013-02-23 14:51:44 · 1423 阅读 · 0 评论 -
hadoop 权限管理
Hadoop权限管理Category: 第一代MapReduce(MRv1) View: 6,727 阅 Author: Dong作者:Dong |新浪微博:西成懂 |可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址:http://dongxicheng.org/mapreduce/hadoop-permission-man转载 2013-02-23 14:49:23 · 585 阅读 · 0 评论 -
用 Ganglia 监控hadoop集群
随着数据中心的增长和管理人员的缩减,对计算资源使用有效监视工具的需求变得比以往更加迫切。术语监视 在应用到数据中心时可能会让人混淆,因为它的含义会根据具体的说话者和听众而有所不同。例如:在集群中运行应用程序的人员会思考:“我的作业什么时候运行?它什么时候会完成?以及与上一次相比,它是怎样执行的?”网络运营中心(NOC)的操作员会思考:“什么时候会出现表示需要解决问题的红灯并安排服务转载 2011-11-08 11:55:53 · 4595 阅读 · 0 评论 -
淘宝海量数据技术架构解析(做为hadoop集群技术架构参考)
淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据产品的研转载 2011-11-25 17:48:48 · 2405 阅读 · 0 评论 -
多region下的hbase写入问题
最近在集群上发现hbase写入性能受到较大下降,测试环境下没有该问题产生。而生产环境和测试环境的区别之一是生产环境的region数量远远多于测试环境,单台regionserver服务了约3500个region。 通过jstack工具检查到大半写入线程BLOCKED状态在"public synchronized void reclaimMemStoreMemory() {"这一行,这是在转载 2011-10-24 17:29:18 · 1020 阅读 · 0 评论 -
HBase入门篇3-hbase 配置文件参数设置及优化
前两篇文件分别说到了我在学习HBase中的一些入门经验,而《HBase 入门3》这篇文章浅显的从几个方面谈谈HBase的一些优化技巧,只能作为我学习笔记的一部分,因为学多了怕忘,留给自己以后看看。1 修改 linux 系统参数 Linux系统最大可打开文件转载 2011-09-15 11:05:18 · 5295 阅读 · 1 评论 -
Hbase入门6 -白话MySQL(RDBMS)与HBase之间
我的废话1: 任何一项新技术并非救命稻草,一抹一擦立马药到病除的百宝箱,并非使用Spring或者NOSQL的产品就神乎其神+五光十色,如果那样基本是扯淡。同类 型产品中不管那种技术最终要达到的目的是一样的,通过新的技术手段你往往可能避讳了当前你所需要面对的问题,但过后新的转载 2011-09-15 11:02:59 · 1100 阅读 · 0 评论 -
MySQL向Hive/HBase的迁移工具
Apache Hive是目前大型数据仓库的免费首选产品之一,使用Apache Hive的人是不会期望在小数据量上做什么文章,例如把MySQL中的数据搬到Hive/HBase中去,那样的话原先很快能执行完毕的SQL,估计在Hive上运行跟原来相比时间延长10倍都不止。但如果你有My转载 2011-09-15 11:02:04 · 789 阅读 · 0 评论 -
HBase入门7 -安全&权限
我的废话: 大年三十夜,看春晚实在是太无聊了,整个《新闻联播》的电视剧版本,还不如上上网,看看资料,喝喝老酒,写点东西来的快活。 近2年来云计算的话题到目前为止风风火火从来没有平静过,一直是大家嘴边讨论的热门话题,人们期望运用云计算提供可靠、稳定、高速的计算转载 2011-09-15 11:01:19 · 875 阅读 · 0 评论 -
zookeeper NIOServerCnxn: Too many connections from /10.202.50.79 - max is 60 异常解决办法
原因:客户端程序通过zookeeper访问hbase的连接数超过设置的默认链接数,连接数不够用导致解决办法:设置hbase-site.xml配置文件,添加如下属性 hbase.zookeeper.property.maxClientCnxns 300原创 2011-09-08 10:46:18 · 5056 阅读 · 0 评论 -
java.io.IOException: Could not obtain block: blk
联系两个晚上跑数据出现这个异常,具体内容如下:2011-08-10 05:51:21,823 ERRORorg.apache.hadoop.hbase.regionserver.CompactSplitThread: Compaction/Splitfailed for原创 2011-08-11 21:26:27 · 4120 阅读 · 0 评论