
Hadoop
文章平均质量分 72
Synchronized
spark and hadoop user
展开
-
eclipse创建hadoop源码工程
hadoop1.0.0之后源码编译跟之前不太一样,今天探索了一下,故写此文章留做笔记。此文内容是我刚刚做了一遍,所以如果版本和我一致,绝对好使。先说版本:jdk1.7(1.6以上应该都可以)ant1.9(目前最新版本)eclipse helios(indigo以及以上版本不可以,已经测试)centos6.0准备工作:1,jdkJAVA_HOME=原创 2013-05-12 16:50:09 · 2217 阅读 · 0 评论 -
hive merge小文件
hive merge小文件当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并当然,在我们向一个表写数据时,也需要注意输出文件大小1. Map输入合并小文件对应参转载 2014-08-11 19:56:35 · 567 阅读 · 0 评论 -
YCSB简介
YCSB如何运行:https://github.com/brianfrankcooper/YCSB/wiki/Running-a-Workload推荐操作顺利:https://github.com/brianfrankcooper/YCSB/wiki/Core-Workloads如何扩展:https://github.com/brianfrankcooper/YCSB/wiki/I原创 2014-08-11 19:49:41 · 5137 阅读 · 0 评论 -
Hadoop工作流引擎之JobControl
Hadoop工作流引擎之JobControlHadoop自带的工作流控制主要包括依赖关系组合式(JobControl)MapReduce和链式(Chain)MapReduce两类。PS:需要注意的是目前由于Hadoop有新旧两套API,分别对应源代码里的mapred和mapreduce两个包,JobControl和Chain在这两种API中的用法是不一样的,而且Hadoop1.x目前海转载 2014-08-11 20:03:58 · 1558 阅读 · 0 评论 -
Lateral View语法
Lateral View语法lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)*fromClause: FROM baseTable (lateralView)*描述lateral view用于和split, explode等UDTF一起使用,它能转载 2014-08-11 19:53:22 · 812 阅读 · 0 评论 -
Hadoop工作流引擎之Azkaban
Hadoop工作流引擎之Azkaban介绍Azkaban是twitter出的一个任务调度系统,操作比Oozie要简单很多而且非常直观,提供的功能比较简单。Azkaban以Flow为执行单元进行定时调度,Flow就是预定义好的由一个或多个可存在依赖关系的Job组成的工作流。Azkaban的官方主页是http://azkaban.github.io/azkaban2/ ,它的的原创 2014-08-11 20:05:36 · 5381 阅读 · 0 评论 -
Oozie配置说明
Oozie配置说明Oozie数据库配置,修改oozie-site.xml文件 oozie.db.schema.name oozie Oozie DataBase Name oozie.service.JPAService.creat原创 2014-08-11 20:06:05 · 5133 阅读 · 0 评论 -
Hadoop工作流引擎之Oozie3.3.2
Hadoop工作流引擎之Oozie3.3.2介绍Oozie是一个由Yahoo开发,用于运行Hadoop工作流的开源工作流引擎。作为一个Java Web程序,它运行在Java Servlet容器中,如Tomcat,并且使用数据库来存储Hadoop工作流的定义和当前运行实例包括实例的状态和变量等。Oozie目前支持的任务包括M/R Job,Streaming Job ,Pi原创 2014-08-11 20:06:57 · 8193 阅读 · 0 评论 -
sqoop 从 hive 导到mysql遇到的问题
周海汉/文 2013.8.22环境hive 版本hive-0.11.0sqoop 版本 sqoop-1.4.4.bin__hadoop-1.0.0从hive导到mysqlmysql 表:mysql> desc cps_activation;+————+————-+——+—–+———+—————-+| Field | Type |转载 2013-08-29 11:42:44 · 2681 阅读 · 0 评论 -
HBase shell commands
HBase shell commandsAs told in HBase introduction, HBase provides Extensible jruby-based (JIRB) shell as a feature to execute some commands(each command represents one functionality).HBase she转载 2014-08-11 19:54:06 · 1037 阅读 · 0 评论 -
Orcfile文件格式解析(1)
Orcfile(Optimized Row Columnar)是hive 0.11版里引入的新的存储格式,是对之前的RCFile存储格式的优化。写这个的哥们来自于HortonWorks,代码写的很不错,比之前的rcfile强多了(据说rcfile是个中科院的童鞋跑去facebook写的,看来中国的计算机教育水平还是有限啊。。。囧,跑题了) 先介绍下Orc的文件格式,截一张官方的图:转载 2014-09-04 16:53:34 · 1289 阅读 · 0 评论 -
对Hadoop源代码中Child类的调试方法
网上有很多关于Hadoop源代码远程调试的文章,但是大多数是关于JobTracker,TaskTracker,NameNode,DataNode,SecondNameNode的。很少有介绍如何调试child类的。然而真正的Map任务和Reduce任务都是通过Child类运行的,所以要想搞清楚MapReduce如何运行,必须要搞清楚如何远程调试Child类。 实际上远程调试Ch转载 2013-05-12 21:31:40 · 674 阅读 · 0 评论 -
hadoop远程调试
之前的一篇blog里讲述了hadoop单机版调试的方法,那种调试只限于单机运行hadoop命令而已,对于运行整个hadoop环境而言是不可取的,因为hadoop会开启多个java进程,如果统一为一个端口启动,则启动会报错说端口被占用,同时对于jdwp agent而言也只能加载一次,故调试时单机只能有一个java进程开启debug模式,其实这个也足够了。 通过分析hadoop的启动脚转载 2013-05-12 21:45:30 · 831 阅读 · 0 评论 -
远程调试Hadoop
在调研JobTracker等异常问题时经常需要远程debug以实现单步跟踪。相对于打印日志,远程调试更方面更快捷,信息也更全面。这里列出远程调试的基本步骤。1、配置jvm选项启用远程debugHadoop的所有deamon启动都是bin/hadoop脚本实现的,该脚本最后一行会执行java命令来启动JVM进程。因此要启用远程debug,只需要修改该脚本最后一行即可。修改前最转载 2013-05-12 22:36:39 · 663 阅读 · 0 评论 -
JobTracker dump内存记录
1、dump命令行:jmap -dump:live,format=b,file=heap.bin 93592、dump时机:CMS GC结束后,这时heap最小,Full GC也最快2012-05-02T22:08:11.226+0800: 470959.079: [GC [1 CMS-initial-mark: 103404048K(121634816K)]转载 2013-05-12 22:41:29 · 587 阅读 · 0 评论 -
JobTracker心跳优化
马上要开始第二阶段优化了,赶快把第一阶段优化内容及结果贴下。•背景–繁忙时段98%~100%的handler线程被BLOCK–RPC请求堆积•Profiling工具 (定位瓶颈)–jstack线上环境使用–yjp测试环境使用优化一:避免频繁调用加锁方法•500次连续jstack结果分析转载 2013-05-12 22:42:11 · 676 阅读 · 0 评论 -
资料集合
MRUnit测试:https://cwiki.apache.org/confluence/display/MRUNIT/MRUnit+TutorialOFFICE2010激活码:VYBBJ-TRJPB-QFQRF-QFT4D-H3GVB原创 2013-05-17 17:01:18 · 636 阅读 · 0 评论 -
hadoop插件编译
hadoop1.0.0及以上版本的eclipse插件编译方法跟0.20.2不太一样,今天探索了一下,故留此文纪念之。注:HADOOP_HOME为hadoop主目录。ECLIPSE_HOME为eclipse安装目录。1,进入HADOOP_HOMEsrc/contrib/eclipse-plugin目录 修改build.xml,在文件最后添加原创 2013-05-12 17:19:05 · 990 阅读 · 0 评论 -
Orcfile文件格式解析(2)
上篇文章从整体介绍了Orcfile的存储格式,接下来重点介绍下Orc里用到的几种编码格式: 字典编码:用于String类型的字段 Run-Length编码:用于int,long,short等类型的编码 Bit编码:可以用于各种数据类型1,字典编码: 对于String类型的每个字段分别保存一个字典,记录每个值在字典中的位置,保存转载 2014-09-04 17:18:39 · 1313 阅读 · 0 评论 -
MapReduce源码浅析
13年初整理的一个关于MapReduce的简单介绍和总结,希望对大家有所帮助,同学欢迎交流JVM、Spark、Hadoop等技术。原创 2014-08-11 19:32:40 · 821 阅读 · 0 评论