hive
文章平均质量分 59
bupt041137
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive rename table name
hive rename tablenamehive rename的时候,如果table不是外部表,那么table的location会进行修改。 如果table是外部表,那么location不变。 HiveAlterHandler // if this alter is a rename, and u...原创 2013-09-18 14:28:45 · 1972 阅读 · 0 评论 -
hive groupby
hive> select distinct value from src; hive> select max(key) from src; 因为没有grouping keys,所以只有一个reducer。 2.2 如果有聚合函数或者groupby,做如下处理: 插入一个select operator,选取所有的字段,用于优化阶段Colu...原创 2011-07-26 00:32:54 · 255 阅读 · 0 评论 -
Hive tag
ExecReducer{ private boolean isTagged = false; @Override public void configure(JobConf job) { MapredWork gWork = Utilities.getMapRedWork(job); isTagged = gWork.getNe...原创 2011-07-26 00:29:48 · 279 阅读 · 0 评论 -
hive hiveconf 配置
hadoop fs -count -q 配置环境变量:# hadoop envexport HADOOP_HOME=export HADOOP_CONF_DIR=# hive envexport HIVE_HOME=export HIVE_CONF_DIR=export HIVE_AUX_JARS_PATH=在HIVE_CONF_DIR下面需要有hive...原创 2011-07-26 00:29:03 · 1606 阅读 · 0 评论 -
hive ppd
Implement predicate push down for hive querieshttps://issues.apache.org/jira/browse/HIVE-279FilterOperator is applied twice with ppd on.https://issues.apache.org/jira/browse/HIVE-1538 .ppd(谓...原创 2011-07-26 00:24:13 · 454 阅读 · 0 评论 -
hive genPlan
(TOK_QUERY (TOK_FROM (TOK_TABREF src)) (TOK_INSERT (TOK_DESTINATION (TOK_DIR TOK_TMP_FILE)) (TOK_SELECT (TOK_SELEXPR TOK_ALLCOLREF)) (TOK_WHERE (< (. (TOK_TABLE_OR_COL src) key) 10))...原创 2011-07-17 21:42:43 · 331 阅读 · 0 评论 -
hive 行分隔符
hive 的行分隔符目前只支持 \n SemanticAnalyzer.analyzeCreateTable case HiveParser.TOK_TABLEROWFORMATLINES: lineDelim = unescapeSQLString(rowChild.getChild(0).getText()); ...原创 2011-06-21 14:33:09 · 657 阅读 · 0 评论 -
SequenceFile的不足
SequenceFile 的Reader 用于读取sequencefile文件。 private Reader(FileSystem fs, Path file, int bufferSize, long start, long length, Configuration conf, boolean tempReader) throws...原创 2011-06-20 21:17:21 · 260 阅读 · 0 评论 -
explain一条HiveSQL,分析这个结果
create table src119(key string, value string); EXPLAINFROM src119 SELECT key , count(distinct value) group by keyABSTRACT SYNTAX TREE: (TOK_QUERY (TOK_FROM (TOK_TABREF src119)) (TOK_INSER...原创 2011-06-18 16:18:35 · 280 阅读 · 0 评论 -
Hive Cli
Hive Cli[b]= hive启动 =[/b]*$ hive –f script.q*$ hive -e 'SELECT * FROM dummy‘*$ hive -S -e 'SELECT * FROM dummy‘*$ hive -hiveconf hive.root.logger=DEBUG,console[b]= set =[/b]*hive> ...原创 2011-06-18 16:01:24 · 541 阅读 · 0 评论 -
hive 初始化运行流程
[b]CliDriver[/b][u][b]初始化过程[/b][/u][i][b]CliDriver.main 是 Cli 的入口[/b][/i](1) 解析(Parse)args,放入cmdLine,处理 –hiveconf var=val 用于增加或者覆盖hive/hadoop配置,设置到System的属性中。(2) 配置log4j,加载hive-log4j.p...原创 2011-06-17 13:49:07 · 393 阅读 · 0 评论 -
hive转义字符
CREATE TABLE escape (id STRING, name STRING)ROW FORMAT DELIMITED FIELDS TERMINATED BY '"';LOAD DATA LOCAL INPATH '/home/tianzhao/book/escape.txt'OVERWRITE INTO TABLE escape;escape.txt的内容是:...原创 2011-10-25 16:41:52 · 1498 阅读 · 0 评论 -
hive strict模式
set hive.mapred.mode=nonstrict;set hive.mapred.mode=strict;hive> set hive.mapred.mode;hive.mapred.mode=nonstricthive> set hive.mapred.mode=strict;hive> select key, value from src order by ...原创 2011-08-07 00:09:44 · 668 阅读 · 0 评论 -
hive的distribute by如何partition long型的数据
有用户问:hive的distribute by分桶是怎么分的。如果distribute by sellerId , reduce个数设的20,那是按照sellerId mod 20来分桶吗?sellerId 是bigint类型。原先我也以为是这样子的,但是用户提出了疑问:很奇怪,跑出来的结果,有一小部分数据不对。这是sellerId,按照 mod的话,应该在第8分文件,但是却在第0份文件中...原创 2013-08-20 10:15:54 · 464 阅读 · 0 评论 -
hive like vs rlike vs regexp
like vs rlike vs regexp rlike == regexp,底层实现一样,使用正则 like 有一些优化,对于查询类型分为五种类型:NONE, // "abc"BEGIN, // "abc%"END, // "%abc"MIDDLE, // "%abc%"COMPLEX, // all other cases, such as "ab%c_de"...原创 2013-04-11 18:53:16 · 882 阅读 · 0 评论 -
hive sql where条件很简单,但是太多
insert overwrite table aaaapartition(pt='20120717')select auction_id,property_id,value_id from xxxx where pt='20120717' and ((property_id = 1626130 and value_id = 46276) or(property...原创 2012-07-18 15:51:23 · 1975 阅读 · 1 评论 -
RegexSerDe
官方示例在:https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-ApacheWeblogDataApache Weblog DataThe format of Apache weblog is customizable, while most webmasters uses the...2012-03-14 09:58:30 · 140 阅读 · 0 评论 -
insert into时(string->bigint)自动类型转换
原表src:hive> desc src;OKkey string value string Time taken: 0.148 secondshive> select * from src;OK238 val_238Time taken: 0.107 seconds建一个新的表create table src111(key bigin...原创 2012-06-14 12:30:20 · 2190 阅读 · 0 评论 -
hive LATERAL VIEW 行转列
drop table lateralview;create table lateralview (col1 string, col2 string)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';LOAD DATA LOCAL INPATH '/home/tianzhao/book/lateralview.txt'OVERWRI...原创 2011-11-09 14:49:58 · 209 阅读 · 0 评论 -
hive complex type
数据:1,100|3,20|2,70|5,100建表:CREATE TABLE complex ( col1 MAP)ROW FORMAT DELIMITEDCOLLECTION ITEMS TERMINATED BY '|'MAP KEYS TERMINATED BY ','STORED AS TEXTFILE;;LOAD DATA LOCA...原创 2011-11-08 19:56:01 · 269 阅读 · 0 评论 -
通过复合结构来优化udf的调用
select split("accba", "b")[0],split("accba", "b")[1] from dual;上面的split("accba", "b")[0]会调用一次split("accba", "b"),split("accba", "b")[1]也会调用一次split(&原创 2012-05-11 14:07:58 · 121 阅读 · 0 评论 -
Hive 的 OutputCommitter
Hive 的 OutputCommitter public class ExecDriver extends Task<MapredWork> implements Serializable { public int execute(DriverContext driverContext) { ShimLoader.getHadoopShims...2012-01-30 19:44:22 · 349 阅读 · 0 评论 -
Hive JobHooks
ExecDriver.execute(DriverContext driverContext) { JobClient jc = new JobClient(job); // make this client wait if job trcker is not behaving well. Throttle.checkJobTracker(job,...原创 2011-08-07 00:12:54 · 189 阅读 · 0 评论 -
Hive UT
ant package eclipse-files -Doffline=true -Divy.skip=trueant clean package eclipse-files记录下(可以去各个目录下的build.xml中查找到):ant test -Doffline=trueant testreportant test -Dtestcase=TestCliDrive...原创 2011-06-17 13:43:41 · 138 阅读 · 0 评论 -
hive 两个不同类型的columns进行比较
select case when "ab1234""123" then 1 else 0 end as flag from src limit 1;1select case when "ab1234"123 then 1 else 0 end as flag from src limit 1;0select case when "ab1234" cast(123 as bi...原创 2011-09-19 13:46:54 · 1256 阅读 · 0 评论 -
hive JoinOperator
(1)startGroup:清空各个表的RowContainer(2)processOp:根据tag,把row add到表对应的RowContainer中。(3)endGroup:RowContainer中的数据进行join并输出。RowContainer添加数据时:内存中的数据条数是否达到了blockSize(默认是25000)个,如果有,则写入一个临时文件,如果没有放入内存的数...原创 2011-09-13 21:36:07 · 477 阅读 · 0 评论 -
hive 脚本
hivebin=`dirname "$0"`bin=`cd "$bin"; pwd`//$0 命令行的第一个参数,代表命令本身(当前Shell程序的文件名)//dirname $0,获取当前Shell程序的路径(返回命令的路径)//. "$bin"/hive-config.sh //运行hive-config.shif [ "$SERVICE" = "...原创 2011-05-07 23:43:39 · 227 阅读 · 0 评论 -
hive 的 test case
src/data 目录下面是输入数据src/ql/src/test/queries下面是测试用例,clientpositive是运行成功的用例,clientnegative是运行失败,返回非0的用例。src/ql/src/test/results 下面是测试用例对应的输出结果。如src/ql/src/test/queries/case_sensitivity.q对应的输出结果是src/ql...原创 2011-05-07 15:21:50 · 191 阅读 · 0 评论 -
datanucleus
hiveserver./hive --service start-hive./hive --service stop-hivehive的metastore使用了datanucleus下载datanucleus-samples-jdo-tutorial-2.0-src.zip解压datanucleus-samples-jdo-tutorial-2.0,把里面的lib目录,...原创 2011-05-06 09:55:53 · 297 阅读 · 0 评论 -
hive安装
ubuntu下面:[b](1)安装好java[/b]设置 JAVA_HOME 在文件/etc/profile中设置JAVA_HOME=/usr/lib/jvm/java-6-sunexport JAVA_HOMEtianzhao@tianzhao-VirtualBox:~/apache/trunk$ echo $JAVA_HOME/usr/[b](2)ssh...原创 2011-05-06 09:42:58 · 143 阅读 · 0 评论 -
Hive使用
修改 conf/hadoop-env.sh 的相关设置如:export HADOOP_HEAPSIZE=64export HADOOP_CLIENT_OPTS="-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/home/tianzhao/oom.hprof"hive启动的时候会应用上面的设置,当OOM的时候,会dump映像到oom.h...2011-05-06 09:19:06 · 177 阅读 · 0 评论 -
hive 初始化运行流程
更多更新在javaeye http://bupt04406.iteye.com/blog/1096504 CliDriver 初始化过程 CliDriver.main 是 Cli 的入口 (1) 解析(Parse)args,放入cmdLine,处理 –hiveconf var=val 用于增加或者覆盖hive/hadoop配置,设置到System原创 2011-06-18 18:11:00 · 2160 阅读 · 2 评论 -
hive 的 test case
src/data 目录下面是输入数据 src/ql/src/test/queries下面是测试用例,clientpositive是运行成功的用例,clientnegative是运行失败,返回非0的用例。 src/ql/src/test/results 下面是测试用例对应的输出结果。如src/ql/src/test/queries/case_sensitivity.q对应的输出结果是src/ql/s原创 2011-06-18 18:13:00 · 1411 阅读 · 0 评论 -
Hive - QTestUtil.java
srcTables: "src", "src1", "srcbucket", "srcbucket2", "src_json", "src_thrift", "src_sequencefile", "srcpart" src、src1两表都是两个columns: src : create table src(key string, value string); lo原创 2011-06-18 18:10:00 · 1301 阅读 · 0 评论 -
explain一条HiveSQL,分析这个结果
create table src119(key string, value string); EXPLAIN FROM src119 SELECT key , count(distinct value) group by key ABSTRACT SYNTAX TREE: (TOK_QUERY (TOK_FROM (TOK_TABREF src119)) (TOK_INSERT (TOK_DE原创 2011-06-18 18:17:00 · 1449 阅读 · 0 评论 -
hive 脚本
hive bin=`dirname "$0"` bin=`cd "$bin"; pwd` //$0 命令行的第一个参数,代表命令本身(当前Shell程序的文件名) //dirname $0,获取当前Shell程序的路径(返回命令的路径) // . "$bin"/hive-config.sh //运行hive-config.sh if [ "$SERVICE" = "" ] ; then if原创 2011-06-18 18:12:00 · 1655 阅读 · 0 评论 -
hive auto map join
旧的mapjoin实现,0.6及其以前的版本新的mapjoin实现,0.7版本,HIVE-1641、HIVE-1754 将小表加载到分布式缓存automapjoin依赖与新的mapjoin实现https://issues.apache.org/jira/browse/HIVE-1642Hiveconf:hive.auto.convert.joinSemant...原创 2011-08-15 20:11:46 · 232 阅读 · 0 评论 -
hive 表的一些默认值
见 Hadoop.The.Definitive.Guide.2nd.Edition P388Thus, the statement: CREATE TABLE ...;is identical to the more explicit: CREATE TABLE ... ROW FORMAT DELIMITED FIELDS TERM...原创 2011-08-17 15:45:16 · 2044 阅读 · 0 评论 -
hive 中间结果和结果数据压缩
Hadoop.The.Definitive.Guide.2nd.Edition 79页hadoop默认的压缩算法。DEFLATE org.apache.hadoop.io.compress.DefaultCodec结果数据压缩是否开启,下面的配置为true,所以开启。这个是最终的结果数据: hive.exec.compress.output true ...原创 2011-09-13 21:13:12 · 462 阅读 · 0 评论 -
Hive - QTestUtil.java
srcTables: "src", "src1", "srcbucket", "srcbucket2", "src_json", "src_thrift", "src_sequencefile", "srcpart"src、src1两表都是两个columns: src :create table原创 2011-06-07 15:03:12 · 155 阅读 · 0 评论
分享