- 博客(54)
- 资源 (16)
- 收藏
- 关注
转载 Orcfile文件格式解析(2)
上篇文章从整体介绍了Orcfile的存储格式,接下来重点介绍下Orc里用到的几种编码格式: 字典编码:用于String类型的字段 Run-Length编码:用于int,long,short等类型的编码 Bit编码:可以用于各种数据类型1,字典编码: 对于String类型的每个字段分别保存一个字典,记录每个值在字典中的位置,保存
2014-09-04 17:18:39
1305
转载 Orcfile文件格式解析(1)
Orcfile(Optimized Row Columnar)是hive 0.11版里引入的新的存储格式,是对之前的RCFile存储格式的优化。写这个的哥们来自于HortonWorks,代码写的很不错,比之前的rcfile强多了(据说rcfile是个中科院的童鞋跑去facebook写的,看来中国的计算机教育水平还是有限啊。。。囧,跑题了) 先介绍下Orc的文件格式,截一张官方的图:
2014-09-04 16:53:34
1287
转载 VIM 代码折叠
VIM 代码折叠VIM代码折叠方式可以用"foldmethod"选项来设置,如: set foldmethod=indent有6种方式来折叠代码1. manual //手工定义折叠2. indent //用缩进表示折叠3. expr //用表达式来定义折叠4. syntax //用语法高亮来定义折叠5. diff //对没有更改的文本进行折叠6.
2014-08-11 21:04:39
639
转载 Python正则表达式指南
Python正则表达式指南本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式,这些主题请查看其他教程。注意:本文基于Python2.4完成;如果看到不明白的词汇请记得百度谷歌或维基,whatever。尊重作者的劳动,转载请注明作者及原文地址
2014-08-11 20:09:12
631
1
原创 Hadoop工作流引擎之Oozie3.3.2
Hadoop工作流引擎之Oozie3.3.2介绍Oozie是一个由Yahoo开发,用于运行Hadoop工作流的开源工作流引擎。作为一个Java Web程序,它运行在Java Servlet容器中,如Tomcat,并且使用数据库来存储Hadoop工作流的定义和当前运行实例包括实例的状态和变量等。Oozie目前支持的任务包括M/R Job,Streaming Job ,Pi
2014-08-11 20:06:57
8185
原创 Oozie配置说明
Oozie配置说明Oozie数据库配置,修改oozie-site.xml文件 oozie.db.schema.name oozie Oozie DataBase Name oozie.service.JPAService.creat
2014-08-11 20:06:05
5125
原创 Hadoop工作流引擎之Azkaban
Hadoop工作流引擎之Azkaban介绍Azkaban是twitter出的一个任务调度系统,操作比Oozie要简单很多而且非常直观,提供的功能比较简单。Azkaban以Flow为执行单元进行定时调度,Flow就是预定义好的由一个或多个可存在依赖关系的Job组成的工作流。Azkaban的官方主页是http://azkaban.github.io/azkaban2/ ,它的的
2014-08-11 20:05:36
5376
转载 Hadoop工作流引擎之JobControl
Hadoop工作流引擎之JobControlHadoop自带的工作流控制主要包括依赖关系组合式(JobControl)MapReduce和链式(Chain)MapReduce两类。PS:需要注意的是目前由于Hadoop有新旧两套API,分别对应源代码里的mapred和mapreduce两个包,JobControl和Chain在这两种API中的用法是不一样的,而且Hadoop1.x目前海
2014-08-11 20:03:58
1552
转载 GNU Parallel
GNU Parallel它是什么?指南预备parallel >= version 20130814abc-filedef-fileabc0-fileabc_-filetsv_file.tsvnum30000num1000000num_%header远程执行:ssh免密码登录$SERVER1和$SERVER2输入源单个输入源多输入源
2014-08-11 20:01:38
1234
转载 shell 字符串处理
在做shell批处理程序时候,经常会涉及到字符串相关操作。有很多命令语句,如:awk,sed都可以做字符串各种操作。 其实shell内置一系列操作符号,可以达到类似效果,大家知道,使用内部操作符会省略启动外部程序等时间,因此速度会非常的快。 一、判断读取字符串值表达式含义${var}变量var的值, 与$var相同
2014-08-11 20:00:58
742
转载 Rank() over()的用法
Rank() over()的用法1,2,2,4,5,6.。。。。这是rank()的形式1,2,2,3,4,5,。。。。这是dense_rank()的形式1,2,3,4,5,6.。。。。。这是row_number()涵数形式创建一个test表,并插入6条数据。CREATE TABLEtest(
2014-08-11 19:57:55
762
转载 hive merge小文件
hive merge小文件当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并当然,在我们向一个表写数据时,也需要注意输出文件大小1. Map输入合并小文件对应参
2014-08-11 19:56:35
566
转载 HBase shell commands
HBase shell commandsAs told in HBase introduction, HBase provides Extensible jruby-based (JIRB) shell as a feature to execute some commands(each command represents one functionality).HBase she
2014-08-11 19:54:06
1035
转载 Lateral View语法
Lateral View语法lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)*fromClause: FROM baseTable (lateralView)*描述lateral view用于和split, explode等UDTF一起使用,它能
2014-08-11 19:53:22
810
原创 YCSB简介
YCSB如何运行:https://github.com/brianfrankcooper/YCSB/wiki/Running-a-Workload推荐操作顺利:https://github.com/brianfrankcooper/YCSB/wiki/Core-Workloads如何扩展:https://github.com/brianfrankcooper/YCSB/wiki/I
2014-08-11 19:49:41
5132
原创 Phoenix(sql on hbase)简介
Phoenix(sql on hbase)简介介绍:Phoenix is a SQL skin over HBase delivered as a client-embedded JDBC driver targeting low latency queries over HBase data. Phoenix takes your SQL query, compile
2014-08-11 19:46:31
5289
原创 MapReduce源码浅析
13年初整理的一个关于MapReduce的简单介绍和总结,希望对大家有所帮助,同学欢迎交流JVM、Spark、Hadoop等技术。
2014-08-11 19:32:40
818
转载 hive 结合执行计划 分析 limit 执行原理
在hive查询中要限制查询输出条数, 可以用limit 关键词指定,如 select columnname1 from table1 limit 10; 这样hive将输出符合查询条件的10个记录,从根本上说, hive是hadoop提交作业的客户端,它使用antlr词法语法分析工具,对SQL进行分析优化后翻译成一系列MapReduce作业,向hadoop提交运行作业以得到结果. 看一条简
2013-12-13 13:08:48
905
转载 HBase修改压缩格式及Snappy压缩实测分享
HBase修改压缩格式及Snappy压缩实测分享一、要点有关Snappy的相关介绍可参看Hadoop压缩-SNAPPY算法,如果想安装Snappy,可以参看Hadoop HBase 配置 安装 Snappy 终极教程。1. HBase修改Table压缩格式步骤2. 实测结果分享二、HBase修改Table压缩格式步骤修改HBase压缩算法很简单,只需要如下几步:
2013-12-03 15:58:39
1063
转载 window和linux换行符处理
换行方式在早期的打印机时代,开始新的一行要占用两个字符的时间。如果到了一行的结尾处,你要快速回到新的一行的开头,需要打印针头在纸面上飞快地掠过,常常会在纸面上留下污点。解决这个问题的办法就是,用两个字符:一个字符来移到第一列,另一个字符来新增一行。计算机产生以后,存储较为昂贵,在如何解决回车换行这个老问题上,人们产生了不同的意见。UNIX人认为在到达一行的结尾时新增一行 (LF),而Mac
2013-11-07 23:12:43
1959
转载 ubuntu增加hosts
Ubuntu系统的Hosts只需修改/etc/hosts文件,在目录中还有一个hosts.conf文件,刚开始还以为只需要修改这个就可以了,结果发现是需要修改hosts。修改完之后要重启网络。具体过程如下:1、修改hostssudo gedit /etc/hosts2、添加解析记录( . )完整案例:127.0.0.1 localhost.localdomain localho
2013-10-08 18:09:44
1225
转载 MySQL新建用户,授权,删除用户,修改密码
首先要声明一下:一般情况下,修改MySQL密码,授权,是需要有mysql里的root权限的。注:本操作是在WIN命令提示符下,phpMyAdmin同样适用。 用户:phplamp 用户数据库:phplampDB1.新建用户。//登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.
2013-10-08 17:11:48
788
转载 Xshell传输文件
用rz,sz命令在xshell传输文件很好用,然后有时候想在windows和linux上传或下载某个文件,其实有个很简单的方法就是rz,sz首先你的Ubuntu需要安装rz.sz(如果没有安装请执行以下命令,安装完的请跳过.其它版本linux请自行安装相应软件)sudo apt-get install lrzsz安装完毕即可使用rz,sz
2013-10-07 10:03:55
934
原创 vim7.0配置python自动补全
1,下载pydiction-1.2.zipcomplete-dict pydiction.py python_pydiction.vim README.txtpython_pydiction.vim 放入~/.vim/after/ftplugincomplete-dict 放入~/vim/下(任意位置都行,需要被g:pydiction_location指定 ,如果
2013-10-01 14:12:47
962
原创 git克隆SSL报错
错误:正克隆到 'dotfiles'...fatal: unable to access 'https://github.com/sontek/dotfiles.git/': SSL certificate problem, verify that the CA cert is OK. Details:error:14090086:SSL routines:SSL3_GET_SERVER_
2013-10-01 11:25:19
1405
转载 sqoop 从 hive 导到mysql遇到的问题
周海汉/文 2013.8.22环境hive 版本hive-0.11.0sqoop 版本 sqoop-1.4.4.bin__hadoop-1.0.0从hive导到mysqlmysql 表:mysql> desc cps_activation;+————+————-+——+—–+———+—————-+| Field | Type |
2013-08-29 11:42:44
2673
转载 基于hadoop集群的hive 安装(mysql,derby)
基于hadoop集群的hive安装步骤 ----嵌入式derby 模式安装环境hadoop已经安装结束,mysql已经安装结束。hive是安装在集群中的主节点上(hostname:node0)hadoop 版本号:hadoop-0.23.5 hive版本号:hive-0.8.1 derby版本号:db-derby-10.9.1.0mysq
2013-08-29 11:40:00
948
原创 资料集合
MRUnit测试:https://cwiki.apache.org/confluence/display/MRUNIT/MRUnit+TutorialOFFICE2010激活码:VYBBJ-TRJPB-QFQRF-QFT4D-H3GVB
2013-05-17 17:01:18
635
转载 JVM调优小结
堆大小设置JVM 中最大堆大小有三方面限制:相关操作系统的数据模型(32-bt还是64-bit)限制;系统的可用虚拟内存限制;系统的可用物理内存限制。32位系统下,一般限制在1.5G~2G;64为操作系统对内存无限制。我在Windows Server 2003 系统,3.5G物理内存,JDK5.0下测试,最大可设置为1478m。典型设置:java -Xmx3550m -Xms355
2013-05-16 15:42:02
552
转载 buffers/cache
这是我查到的,很好的解释,供参考!这也是让我们更深入的理解此FREE命令,及linux内核处理内存的机制了:我的linux执行free命令显示如下:[root@Linux /tmp]# free total used free shared buffers cachedMem: 414
2013-05-13 09:56:11
905
转载 JobTracker心跳优化
马上要开始第二阶段优化了,赶快把第一阶段优化内容及结果贴下。•背景–繁忙时段98%~100%的handler线程被BLOCK–RPC请求堆积•Profiling工具 (定位瓶颈)–jstack线上环境使用–yjp测试环境使用优化一:避免频繁调用加锁方法•500次连续jstack结果分析
2013-05-12 22:42:11
675
转载 JobTracker dump内存记录
1、dump命令行:jmap -dump:live,format=b,file=heap.bin 93592、dump时机:CMS GC结束后,这时heap最小,Full GC也最快2012-05-02T22:08:11.226+0800: 470959.079: [GC [1 CMS-initial-mark: 103404048K(121634816K)]
2013-05-12 22:41:29
582
转载 可读的JVM GC时间戳
当我们诊断Java应用程序的问题时,能够查到垃圾回收的状况是非常有帮助的。一个基本的最基础的方法是开启垃圾回收日志。也许你已经知道了,如果我们把下面的参数加到java启动命令行中,-Xloggc: –XX:+PrintGCDetails -XX:+PrintGCDateStampsJVM就会将垃圾回收信息写到-Xloggc设置的文件中。日志格式如下:2010-04-
2013-05-12 22:39:23
2566
转载 远程调试Hadoop
在调研JobTracker等异常问题时经常需要远程debug以实现单步跟踪。相对于打印日志,远程调试更方面更快捷,信息也更全面。这里列出远程调试的基本步骤。1、配置jvm选项启用远程debugHadoop的所有deamon启动都是bin/hadoop脚本实现的,该脚本最后一行会执行java命令来启动JVM进程。因此要启用远程debug,只需要修改该脚本最后一行即可。修改前最
2013-05-12 22:36:39
660
转载 hadoop远程调试
之前的一篇blog里讲述了hadoop单机版调试的方法,那种调试只限于单机运行hadoop命令而已,对于运行整个hadoop环境而言是不可取的,因为hadoop会开启多个java进程,如果统一为一个端口启动,则启动会报错说端口被占用,同时对于jdwp agent而言也只能加载一次,故调试时单机只能有一个java进程开启debug模式,其实这个也足够了。 通过分析hadoop的启动脚
2013-05-12 21:45:30
830
转载 对Hadoop源代码中Child类的调试方法
网上有很多关于Hadoop源代码远程调试的文章,但是大多数是关于JobTracker,TaskTracker,NameNode,DataNode,SecondNameNode的。很少有介绍如何调试child类的。然而真正的Map任务和Reduce任务都是通过Child类运行的,所以要想搞清楚MapReduce如何运行,必须要搞清楚如何远程调试Child类。 实际上远程调试Ch
2013-05-12 21:31:40
672
原创 hadoop插件编译
hadoop1.0.0及以上版本的eclipse插件编译方法跟0.20.2不太一样,今天探索了一下,故留此文纪念之。注:HADOOP_HOME为hadoop主目录。ECLIPSE_HOME为eclipse安装目录。1,进入HADOOP_HOMEsrc/contrib/eclipse-plugin目录 修改build.xml,在文件最后添加
2013-05-12 17:19:05
987
原创 eclipse创建hadoop源码工程
hadoop1.0.0之后源码编译跟之前不太一样,今天探索了一下,故写此文章留做笔记。此文内容是我刚刚做了一遍,所以如果版本和我一致,绝对好使。先说版本:jdk1.7(1.6以上应该都可以)ant1.9(目前最新版本)eclipse helios(indigo以及以上版本不可以,已经测试)centos6.0准备工作:1,jdkJAVA_HOME=
2013-05-12 16:50:09
2214
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人