
hadoop
文章平均质量分 51
azhao_dn
关注hadoop 数据挖掘
展开
-
Hadoop 2:Capacity Scheduler配置项说明
yarn.scheduler.capacity.A.capacity队列A的最低保障容量(百分比)(所有队列总和相加为100)yarn.scheduler.capacity.A.maximum-capacity队列A可以获取到的最大容量(不予保障)(集群空闲时从其他队列借取)yarn.scheduler.capacity.A.minimum-user-limit-p原创 2015-05-14 14:57:47 · 7466 阅读 · 0 评论 -
线上hadoop集群重启jobtracker
由于业务需求需要添加新的队列,所以在修改了mapred-site.xml 和capacity-scheduler.xml配置文件后,重启jobtracker,重启后发现tasktracker重新注册到jobtracker总共花费了近十分钟,我还以为事tasktracker出了问题,不知道这种情况是否正常?原创 2012-06-27 10:10:18 · 2605 阅读 · 0 评论 -
hadoop运维记录之二:tasktracker启动后”假死“
由于hadoop集群中某台服务器磁盘损坏,导致该服务器tasktracker 任务失败率大增(失败原因:分配到该服务器的任务的临时目录选择了损坏的磁盘,导致job初始化是失败),所以决定将坏的磁盘从tasktracker中的mapred本地目录中删除,然后重启tasktracker。 操作步骤如下: 1)修改完mapred-site.xml配置文件;原创 2012-05-30 15:09:48 · 3905 阅读 · 1 评论 -
hadoop的回收站功能
hadoop 的回收站trash功能默认是关闭的,所以需要在core-site.xml中手动开启: fs.trash.interval 1440 Number of minutes between trash checkpoints. If zero, the trash feature is disabled.原创 2011-10-31 14:39:23 · 3739 阅读 · 0 评论 -
mapred streaming 脚本输出运行状态导致的奇怪问题
今天在调试mapred streaming脚本时,发生了非常奇怪的问题:mapred脚本在被tasktracker调用后总是会随机的失败,错误信息如下:java.lang.RuntimeException: java.lang.NullPointerException at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(Pi原创 2012-06-13 15:46:19 · 3109 阅读 · 1 评论 -
hadoop MapReduce Job失效模型
转载:查看原文hadoop设计的初衷就是容错.计算任务(MapReduce task)能够在节点宕机或其它随机错误下自行恢复.但是hadoop并不完美,在实际运营中,我发现MapReduce Job仍然经常会因为一些偶发性错误而运行失败.所以我决定深入探究一下各种不同因素是如何导致job失败的.如果一个hadoop job的某个给定task在失败预定次(默认是4)后,整个job转载 2012-05-22 11:28:16 · 1211 阅读 · 0 评论 -
用Map/Reduce来做好友推荐
查看原文Posted by 颜开SNS网站都有一个功能,就是好友推荐(或者Follower推荐)。例如,在人人网上出现的“你可能认识的人”。怎么来实现呢,有一个很简单的办法。如果小刚和小明不是好友,但是他们有很多的共同好友。那么可以认为,A和B很可能相识。从图论的讲法上看,就是先列出一个人(记为小A)的所有朋友的朋友,在寻找小A和这些人之间有多少长度为2的通路。将这些通路数排序,寻转载 2012-06-07 18:32:08 · 2017 阅读 · 0 评论 -
jython对hadoop的封装项目
在Hadoop API的Python封装方面,著名音乐站点Last.fm发布了基于Python的Dumbo(小飞象)项目,Dumbo能够帮助Python开发者更方便的编写Hadoop应用,并且Dumbo为MapReduce应用提供了灵活易用的PythonAPI。Last.fm的开发者,同时也是Dumbo项目发起人Klaas Bosteels 认为,对于定制Hadoop应用,使用Pyth原创 2012-06-06 16:45:48 · 1609 阅读 · 0 评论 -
第三次easyhadoop聚会
第三次easyhadoop聚会 20120519 [hadoop相关应用与数据挖掘]时间: 2012年5月19日星期六 下午13:00-16:30网站: www.easyhadoop.com EasyHadoop 交流群:930869301. Hadoop在亿赞普的应用(亿赞普 肖燕京)2. Hive与HBase整合经验谈(趣游 史东杰)3. Scribe日志收集系统简原创 2012-05-16 15:52:36 · 2170 阅读 · 4 评论 -
基于Hadoop平台的并行数据挖掘算法工具-Dodo
查看原文一 基于云计算的海量数据挖掘2008年7 月,《Communications of the ACM》杂志发表了关于云计算的专辑,云计算因其清晰的商业模式而受到广泛关注,并得到工业和学术界的普遍认可。目前工业界推出的云计算平台有Amazon公司的EC2和S3,Google公司的Google Apps Engine, IBM公司的Blue Cloud,Microsoft转载 2012-05-31 15:17:46 · 13656 阅读 · 2 评论 -
Mahout聚类分析
查看原文聚类分析什么是聚类分析?聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster),它的目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。所以,在很多应用中,一个簇中的数据对象可以被作为一个整体来对待,从而减少计算量或者提高计算质量。其实聚类是一个人们日常生活的常见行为,即所谓“物以类聚,人以群分”转载 2012-05-31 15:09:29 · 4044 阅读 · 0 评论 -
hadoop 集群大版本切换之保存数据和日志的方法
查看原文 注:将版本从0.21.0 切换到 0.20.205.0 ,或者反过来切换,没有办法用自带的upgrade命令(文中的许多操作最好能够写成脚本,手动操作过于麻烦)转载请注明出处,谢谢,实现出来确实挺累的测试之前的情况测试采用三台机器作为测试:Namenode/secondarynamenode:192.168.1.39 slave039(该节点连接外网11转载 2012-04-20 10:12:48 · 2112 阅读 · 0 评论 -
Hadoop 0.23.x/NameNode federation原理、编译、安装、体验
查看原文从0.23.0开始,Hadoop开始支持分布式NameNode,通过NameNode federation的形式实现。这样实现了NameNode的横向扩展,使得Hadoop集群的规模可以达到上万台。同时在NameNode HA机制方面,trunk中的代码也开始merge进ha-branch的功能,原来的SecondaryNamenode被BackupNode和CheckpointN转载 2012-04-20 09:48:57 · 2779 阅读 · 0 评论 -
业务开发测试HBase之旅二:通过HBase Shell与HBase交互
现在有业务需求有实时性统计需求,可能要用到Hbase,所以特转载了一些关于hbase的文章转载自:Taobao QA Team,原文地址:http://qa.taobao.com/?p=13871HBase提供了丰富的访问接口。• HBase Shell• Java clietn API• Jython、Groovy DSL、Scala• REST• Thrift(Ru转载 2012-04-18 12:00:12 · 1651 阅读 · 0 评论 -
hadoop运维之三datanode被迫的升级
由于最近集群xcievers错误频频发生,已经到了影响集群正常运营的地步,于是决定修改集群所有的datanode节点的配置,并重启datanode,欲添加的配置项如下: dfs.datanode.max.xcievers 256 修改完配置文件后,在重启datanode时发生了麻烦,datanode启动日志报出原创 2012-07-11 11:04:50 · 3833 阅读 · 1 评论 -
hadoop集群balance工具详解
在线上的hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器高)。 1) hadoop balance工具的用法:To start:bin/start-balancer.sh [-threshold ]Ex原创 2012-07-12 19:04:13 · 26500 阅读 · 1 评论 -
Hadoop2 MR-JobHistory服务介绍
1)MR-JobHistory服务目标主要是向用户提供历史的mapred Job 查询2)MR-JobHistory服务架构详细解释:a)在运行MR Job时,MR 的 ApplicationMaster会根据mapred-site.xml配置文件中的配置,将MR Job的job history信息保存到指定的hdfs路径(首先保存到临时目录,然后mv到最终目录)原创 2015-05-15 11:09:59 · 15418 阅读 · 2 评论 -
hive UDF开发注意事项
在开发的hive UDF中,有时候需要使用到第三方jar包,一般的做法是把第三方jar包和udf一起打包,结果在测试udf时,hive报错:java.lang.ClassNotFoundException 解决办法: 1)在运行hive hql时,手动将udf所需要的jar包 通过add语句 添加(测试通过); 2)将udf所需原创 2012-11-14 12:04:14 · 8241 阅读 · 2 评论 -
第十次 EasyHadoop公益免费技术分享
第十次 EasyHadoop公益免费技术分享 (互联网大数据与基因大数据交流活动)2014年11月10日技术活动EasyHadoop 技术分享 ,重新起航。easyhadoop社区自2012年2月成立,从2012年02月25日举办第一次技术分享到2013年6月22日的第九次已经举办了九期技术分享活动,这之后便沉寂了大约一年半的时间,本次是第十期活动。让大家久等了,谢谢大家这两年原创 2014-11-11 15:00:28 · 6011 阅读 · 0 评论 -
hbase权威指南: store file合并(compaction)
hbase为了防止小文件(被刷到磁盘的menstore)过多,以保证保证查询效率,hbase需要在必要的时候将这些小的store file合并成相对较大的store file,这个过程就称之为compaction。在hbase中,主要存在两种类型的compaction:minor compaction和major compaction。 major compaction 的原创 2013-04-29 16:05:52 · 21725 阅读 · 0 评论 -
第四次easyhadoop聚会
第四次easyhadoop聚会 20120701 [hadoop相关应用与数据挖掘]时间: 2012年7月1日星期日 下午14:00-17:00网站: www.easyhadoop.com EasyHadoop 交流群:93086930主题: 1)hadoop集群运维杂记(蓝讯 张月) 2)hive使用和优化(暴风 赵修湘) 3)phphiveadmin 安原创 2012-06-27 18:51:29 · 1693 阅读 · 1 评论 -
使用java开发mapred时遇上的奇怪问题
1)错误代码:输入文件的key class 为LongWritable ,和Text 不匹配 错误原因:最初设定程序的输入文件为sequence file ,生成的测试数据 为 text file,而 text file 的key 为该行的偏移量,为LongWritable2)错误代码:Text 不能转化为 LongWritable 错误原因:在初始化mapred原创 2012-11-29 16:59:46 · 4794 阅读 · 1 评论 -
Map/reduce 输出格式化
查看原文在运行mapTask 或者reduceTask,输出的结果可能需要进行格式化才能满足我们的需求.hadoop 提供了OutputFormat 供我们转换使用。org.apache.hadoop.mapreduce.lib.output.OutputFormatK,V>//在Job中可以通过setOutputFormatClass 方法来设置格式化,SortedOut转载 2012-10-15 16:38:02 · 4760 阅读 · 0 评论 -
Hadoop现有测试框架探幽
查看原文Hadoop现有测试框架探幽背景从使用hadoop的第一天开始,就一直没有离开过对Hadoop自身功能的开发以及hadoop本身bug的修复的相关开发。这样的开发模式已经持续了好几年,但是可以从中发现的一个现象:对于我们修复的bug或者开发的功能,一直都没有一种很规范,很统一,高效,好管理,并且一目了然的测试的方式。常常的现象是:开发了一个功能或修复了一个bug后,就针转载 2012-10-12 18:32:19 · 3822 阅读 · 1 评论 -
创建hadoop 1.0.3 Eclipse开发环境
为了提高mapred开发效率,今天终于下定决心将hadoop的Eclipse开发环境配置好。 Eclipse版本:163disk.com_eclipse-jee-indigo-SR2-win32 ,点击下载 插件版本:hadoop-eclipse-plugin-1.0.2 ,点击下载 配置过程可以参考一下两篇博文:原创 2012-10-12 17:18:55 · 2335 阅读 · 0 评论 -
Hadoop程序打印调试
转载 Hadoop程序打印调试1. System.out 和 System.errMain在Main函数里使用System.out标准输出和System.err标准错误输出,输出定向到执行程序节点的终端上。即在完全分布的Hadoop部署中,输出会定向到启动程序的节点的终端上。Mapper针对每个split,会实例化一个Mapper对象作为一个task,在Hadoop集群转载 2012-09-21 14:10:56 · 7670 阅读 · 0 评论 -
EasyHadoop 第六次技术分享(Hadoop应用(海量小文件存储),Hadoop高可用和信息安全)
初春播下的种子,在春夏阳光雨露的滋润下快速成长,转眼也快到了十月金秋收获的季节。而现在正是秋初酝酿成长之季。Hadoop 从互联网领域蓬勃发展,广大搜索,电商,视频,门户,游戏公司都纷纷开始实施Hadoop技术解决方案。同时Hadoop大数据解决方案已经扩展到通信,安全,工业,乃至生物医药等领域,成为公认的大数据分析处理领域规范标准。 EasyHadoop 开源社区从二月的第原创 2012-09-19 09:00:17 · 8746 阅读 · 1 评论 -
hadoop Capacity Scheduler使用手记
由于集群资源有限,为了保证重要任务能够分配到足够的槽位,决定将hadoop的HIHO调度器换成Capacity Scheduler (Fair Scheduler无法实现最大槽位占有限制)。 首先修改mapred-site.xml,在其中添加配置项: mapred.jobtracker.taskScheduler org.apache.hadoop.mapr原创 2011-12-14 14:31:36 · 7187 阅读 · 3 评论 -
hadoop stream 参数详解
原文地址:streaming">Hadoop streaming作者:tivoli_chen1 hadoop streamingHadoop streaming是和hadoop一起发布的实用程序。它允许用户创建和执行使用任何程序或者脚本编写的map或者reduce的mapreducejobs。譬如,$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/h转载 2012-02-24 14:50:59 · 28501 阅读 · 3 评论 -
hadoop运维之jobtracker无故停止服务
今天下午同事在使用hive提交查询时,抛出执行错误: 于是打开jobtracker的管理页面,发现正在运行的job数目为零,tasktracker心跳正常,这一异常现象让我觉得jobtracker可能是停止服务了(一般很少出现集群的运行job数为零的情况),于是手动提交了一个mapred任务进行测试,运行错误信息如下:12/07/03 18:07:22 INFO hdfs原创 2012-07-03 18:48:22 · 5623 阅读 · 1 评论 -
业务开发测试HBase之旅四:HBase MapReduce实例分析
现在有业务需求有实时性统计需求,可能要用到Hbase,所以特转载了一些关于hbase的文章转载自:Taobao QA Team,原文地址:http://qa.taobao.com/?p=13914跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便,本文将以前面的blog示例,介绍HBase下MapReduce开发要点。很好理解本文前提是你对Had转载 2012-04-18 12:07:47 · 1931 阅读 · 0 评论 -
业务开发测试HBase之旅一:HTable基本概念
现在有业务需求有实时性统计需求,可能要用到Hbase,所以特转载了一些关于hbase的文章转载自:Taobao QA Team,原文地址:http://qa.taobao.com/?p=13850引言团队中使用HBase的项目多了起来,对于业务人员而言,通常并不需要从头搭建、维护一套HBase的集群环境,对于其架构细节也不一定要深刻理解(交由HBase集群维护团队负责),迫切需要的转载 2012-04-18 10:27:14 · 2172 阅读 · 0 评论 -
hadoop mapred(hive)执行目录 文件权限问题
在配置其他linux用户使用hive 的cli客户端时,发现该用户没有对/tmp目录的写权限,于是将/tmp目录下权限设置为777:bin /hadoop fs -chmod -R 777 /tmp,然而第二天来时发现hadoop的文件rush任务失败,报错的日志信息如下:Job Submission failed with exception 'java.io.IOException(The原创 2011-10-31 14:36:07 · 26687 阅读 · 0 评论 -
运行hadoop基准测试
由于需要为hadoop集群采购新的服务器,需要对服务器在hadoop环境下的性能进行测试,所以特地整理了一下hadoop集群自带的测试用例:bin/hadoop jar hadoop-*test*.jar运行上述命令,可以得到hadoop-*test*.jar自带的测试程序An example program must be given as the first argument原创 2011-11-03 11:14:59 · 11388 阅读 · 4 评论 -
hadoop job error-1
在使用pig处理数据时,red程序报错:job_201110171502_1932org.apache.pig.backend.executionengine.ExecException: ERROR 2081: Unable to setup the store function. at org.apache.pig.backend.hadoop.executionengi原创 2011-10-31 14:40:26 · 4095 阅读 · 1 评论 -
安装pig时遇到的问题
下载pig-0.8.1的安装包,解压到安装路径后,设置好HADOOP_CONF_DIR 和HADOOP_HOME,然后运行bin/pig出现错误,错误信息如下:ERROR org.apache.pig.Main - ERROR 2999: Unexpected internal error. Failed to create DataStorage到namenode上去查看pig连接原创 2011-10-31 14:38:29 · 2624 阅读 · 1 评论 -
使用Ganglia对hadoop进行监控
原文链接:http://www.cnblogs.com/lijun4017/archive/2011/08/11/2135031.htmlGanglia是一个监控服务器,集群的开源软件,能够用曲线图表现最近一个小时,最近一天,最近一周,最近一月,最近一年的服务器或者集群的cpu负载,内存,网络,硬盘等指标。Ganglia的强大在于:ganglia服务端能够通过一台客户端收集到同一个网段转载 2011-10-31 17:21:09 · 5420 阅读 · 0 评论 -
hadoop hdfs文件权限管理
可以在hdfs-site.xml中添加如下dfs.permissions false的方式关闭文件权限检查原创 2011-10-31 16:23:47 · 2708 阅读 · 0 评论 -
hadoop进程pid文件问题
由于机器服务器维护需要,要求hadoop集群的一台服务器停止服务,于是我就到那台服务器去停止hadoop的datanode和tasktracker,运行以下命令:bin/hadoop-daemon.sh stop datanode竟然输出:no datanode to stop但是查看进程,却发现datanode和tasktracker都还在运行,尝试了好几次都是同样结果,最后我试原创 2011-10-31 14:48:07 · 5652 阅读 · 0 评论 -
hadoop公平调度其Fair Scheduler运行错误
下午将hadoop的调度器更改为Fair Scheduler,没想到晚上Fair Scheduler就抛出了异常,异常错误信息如下:23:51:36,437 ERROR org.mortbay.log: /schedulerjava.lang.NullPointerException at org.apache.hadoop.mapred.FairSchedulerServlet$原创 2011-11-17 10:23:36 · 3873 阅读 · 2 评论