
hadoop
文章平均质量分 74
baiyangfu
富贵有定数,学问则无定数。求一分,便得一分。一个大牛说的,共勉
展开
-
自己定义一个outputFormat
自定义一个OutputFormat,用于输出Text, MapWritable>格式的数据MapWritable的内容是 [Text: LongWritable]输出格式 [url url2:times2,url3:times3,...] 参考TextOutputFormat,修改简化之 Java代码 public class TextAndMa转载 2012-07-13 21:23:34 · 1228 阅读 · 0 评论 -
hadoop2.2.0 hbase0.96 安装snappy
在hadoop2.2.0集群上安装了一下snappy,安装过程很简单,可以看一下这个博客:http://shitouer.cn/2013/01/hadoop-hbase-snappy-setup-final-tutorial/我在这里记录一下遇到的问题,原创 2013-11-12 15:08:18 · 1845 阅读 · 0 评论 -
yarn fair调度器的一个问题
使用公平调度器,配置用户运行作业做大数30并发提交60个作业,发现作业一直卡着,经过分析发现 是am占用了大部分资源,网上有一篇类似的文章:http://tech.uc.cn/?p=333修改am所占资源大小:-Dyarn.app.mapreduce.am.resource.mb=200 -Dyarn.app.mapreduce.am.command-opts="原创 2013-11-11 16:43:05 · 1725 阅读 · 0 评论 -
BDTC 参会总结
今天有幸能参加大数据技术会议,感受国内外的前沿技术,感觉很兴奋。来回跑了几个会场,听了11个议题,简单做个总结,做个记录,也希望能对没有参加会议的技术朋友有点帮助。带着相机去的,我所看到的ppt都有照片,有的没有听全,所以有点小缺陷。1、Hbase and HOYA 这个是Hortonworks的工程师 Ted Yu(很著名)做的演讲,去的时候已经讲了十几分钟。国外的大数据公司还是很有原创 2013-12-07 00:08:20 · 1760 阅读 · 1 评论 -
hadoop2.2.0 的fairscheduler 遇到的一个问题
在使用hadoop2.2.0 的 fairscheduler的时候,出现了下面的一个问题:当多个客户端提交任务的时候,发现生成的appatempt 没有进入fairscheduler的 eventQueue,导致fairscheduler没有对该任务进行调度,而当am向scheduler请求这个作业的信息时,出现下面的问题,而且是打了很多这样的log:2013-11-27 14:27:02原创 2013-11-28 16:30:38 · 4880 阅读 · 0 评论 -
hadoop2.0 安全配置 kerberos
在安装配置 kerberos 之前,需要了解一些背景资料: http://www.freebsd.org/doc/zh_CN/books/handbook/kerberos5.htmlhttp://blog.wgzhao.com/2005/12/02/kerberos-authentication-configuration/1、kdc服务器上安装kerberos-se原创 2013-10-14 20:02:08 · 7415 阅读 · 3 评论 -
hadoop2.2.0 和 hbase0.94.12 平台使用phoenix
phoenix使hbase的数据可以通过sql语句进行操作,提供查询对话框和类jdbc的java中间件,非常方便。phoenix 的wiki:https://github.com/forcedotcom/phoenix/wikiphoenix的github:https://github.com/forcedotcom/phoenix目前,phoenix不支持hbase0.96版本,推荐原创 2013-12-26 15:42:48 · 3112 阅读 · 5 评论 -
python连接 hive 执行hsql
记录一下笔记:#!/usr/bin/env pythonimport syssys.path.append('/home/q/hive-0.10.0/lib/py')from hive_service import ThriftHivefrom hive_service.ttypes import HiveServerExceptionfrom thrift import Thr原创 2013-04-09 11:51:34 · 3597 阅读 · 0 评论 -
hadoop2.20 和 hbase0.96 metrics 配置
hadoop-metrics:*.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31*.sink.ganglia.period=10*.sink.ganglia.slope=jvm.metrics.gcCount=zero,jvm.metrics.memHeapUsedM=both*.si原创 2013-11-14 16:30:56 · 2248 阅读 · 0 评论 -
hbase 安装文档
1、需要的软件: hadoop、zookeeper 我们使用的版本分别是: hadoop-0.20.2-cdh3u4 、 zookeeper-3.3.5、hbase-0.90.6-cdh3u6 hadoop 和 zookeeper的安装 这里就不介绍了。2、下载安装包:http:原创 2013-07-24 15:24:13 · 1522 阅读 · 0 评论 -
hadoop集群维护遇到的一些问题【持续更新】
1、向hadoop集群提交一些比较大的任务,集群负载很快就飚起来了,有的达到120多。分析一下,应该是任务起的线程太多了。用jstack看一下,发现每个child的gc线程太多了:达到了18个,一个child的gc线程就要开这么多,难怪负载会飙升。修改提交作业的客户端配置 mapred-site.xml :将child的gc方式设置成串行gc或者将并行gc的线程原创 2013-05-24 09:33:30 · 1938 阅读 · 0 评论 -
hadoop streaming python 处理 lzo 文件遇到的问题
一个小需求,不想写java的mapreduce的程序,想用streaming + python 处理一下原创 2014-11-18 16:03:49 · 3908 阅读 · 0 评论 -
hadoop2.2.0 balance机制总结
最近在搞balance优化,借此机会,整理总结一下balance的机制。原创 2017-10-24 20:18:22 · 1377 阅读 · 0 评论 -
kafka 日常操作
做个备忘1、启动 daemon方式 sudo -ukafka bin/kafka-server-start.sh -daemon config/server.properties2、关闭 sudo -ukafka bin/kafka-server-stopsh3、创建topic bin/kafka-topics原创 2017-10-26 12:03:02 · 534 阅读 · 0 评论 -
hadoop2.0 遇到的问题 (持续更新)
最近在弄hadoop2.0,把遇到的一些问题做个笔记:版本:apache hadoop-2.2.0 在启动nodemanager的时候报下面的错误:2013-10-29 11:32:21,523 FATAL org.apache.hadoop.yarn.server.nodemanager.NodeManager: Error starting NodeManagerjava原创 2013-10-29 11:38:09 · 12828 阅读 · 1 评论 -
hadoop2.0 公平调度器(fair-scheduler)配置
如果是第一次接触hadoop2.0版本的 Fairshare scheduler , 最好先看一下他的官方文档:http://hadoop.apache.org/docs/r2.2.0/hadoop-yarn/hadoop-yarn-site/FairScheduler.html yarn.resourcemanager.schedul原创 2013-11-01 17:21:17 · 8864 阅读 · 0 评论 -
Partitioner, SortComparator and GroupingComparator in Hadoop
来源:http://roserouge.iteye.com/blog/746391hadoop 0.20.2 api里面,作业被重新定义到了类 org.apache.hadoop.mapreduce.Job。它有3个特别的方法:job.setPartitionerClass(Partitioner p);job.setSortComparatorClass(RawC转载 2012-07-13 21:25:49 · 740 阅读 · 0 评论 -
mapreduce程序编写注意事项
任何一个解决方案都不可能做到天衣无缝,在不断出现的应用面前,一定会不断暴露出问题,暴露出问题就要解决。问题1.与同一个KEY相关联的数据不能太多。需求如下: 假如有如下的数据(我尽量简化字段): 域名 QQ号码 性别。 www.qq.com 21201421 男 .... 我需要做类似如下功能的统计 sele转载 2012-07-12 17:15:17 · 1234 阅读 · 0 评论 -
MapReduce,组合式,迭代式,链式
前面介绍一些怎样用户类制定自己的类,来达到减少中间数据:http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html1.迭代式mapreduce 一些复杂的任务难以用一次mapreduce处理完成,需要多次mapreduce才能完成任务,例如Pagrank,Kmeans算法都需要多次的迭代,关于mapreduce迭代在转载 2012-07-16 20:51:42 · 1661 阅读 · 0 评论 -
Hadoop,MapReduce操作Mysql
前以前帖子介绍,怎样读取文本数据源和多个数据源的合并:http://www.cnblogs.com/liqizhou/archive/2012/05/15/2501835.html这一个博客介绍一下MapReduce怎样读取关系数据库的数据,选择的关系数据库为MySql,因为它是开源的软件,所以大家用的比较多。以前上学的时候就没有用过开源的软件,直接用盗版,也相当与免费,且比开源好用,例如转载 2012-07-16 20:54:08 · 1283 阅读 · 0 评论 -
MapReduce,DataJoin,链接多数据源
主要介绍用DataJoin类来链接多数据源,先看一下例子,假设二个数据源customs和orderscustomer ID Name PhomeNumber1 赵一 025-5455-5662 钱二 025-4587-5653转载 2012-07-16 20:55:38 · 924 阅读 · 0 评论 -
hadoop2.0 ha 两个namenode都在standby,why?
症状:2013-08-27 18:19:03,489 WARN org.apache.hadoop.hdfs.server.namenode.ha.EditLogTailer: Unable to trigger a roll of the active NNorg.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.Stan原创 2013-08-27 19:37:06 · 4881 阅读 · 3 评论 -
hadoop2.0 相关问题(持续更新)
搭建了一个hadoop2.0的测试集群,使用的是QJM HA方案,搭建配置过程就不在这里说了,晚上有很多资料。把遇到的一些问题总结一下: 配置HA的时候,hdfs-site.xml文件中: dfs.ha.automatic-failover.enabled原创 2013-10-09 20:01:57 · 2005 阅读 · 2 评论 -
yarn 基本知识
本文大部分内容来自论文《Apache Hadoop YARN :Yet Another Resource Negotiator》及官网。YARN主要解决以下10个问题:【R1】:Scalability【R2】:Multi-tenancy【R3】:Serviceability【R4】:Locality awareness【R5】:High Cluster Utilizati原创 2013-10-10 20:00:31 · 1625 阅读 · 0 评论 -
Hadoop HDFS 升级到2.0 笔记
首先先看一下文档:http://dongxicheng.org/mapreduce-nextgen/hadoop-upgrade-to-version-2/ http://dongxicheng.org/mapreduce-nextgen/hadoop-upgrade-in-version-1/http://www.cloudera.com/content/cloudera-conte原创 2013-10-28 19:40:24 · 6789 阅读 · 1 评论 -
hadoop2.0 capacity调度器配置
集群同时运行的最大作业数yarn.scheduler.capacity.maximum-applications 100default 队列同时运行的最大作业数 yarn.scheduler.capacity.root.default.maximum-applications 10am 所占资源最大比例,用来控制同时运行的作业数yarn.sc原创 2013-10-30 14:20:57 · 2929 阅读 · 0 评论 -
hadoop2.0 ha failover 遇到的问题
最近在测试hadoop2.0 的ha,当failover的时候,standby namenode 会同步active namenode的edit日志。如果edit文件比较多的时候,standby namenode会频繁的访问journalnode,由于没有同步带宽没有限制,standby namenode会将journalnode的带宽占完,导致active namenode 无法访问jour原创 2013-11-15 20:11:27 · 3134 阅读 · 0 评论 -
ganglia3.6 监控 hadoop2.2.0
既然hadoop都用了最新版本,那ganglia干脆也用最新的,下面记录一下使用ganglia3.6监控hadoop2.2.0遇到问题:ganglia3.6安装:1、编译安装gangliatar xf ganglia-3.6.0.tar.gzcd ganglia-3.6.0./configure --prefix=/usr/local/g原创 2013-11-14 11:45:26 · 2976 阅读 · 2 评论 -
hadoop ipc server 分析
最近遇见namenode 响应时间变慢,分析一下namenode 的 ipc server源码,记录一下ipc server的机制原创 2017-10-25 20:30:37 · 6600 阅读 · 0 评论