
hive相关
文章平均质量分 87
年华似水
一小程序员,每天为梦想拼搏!
展开
-
Hives UDF 编写入门
大写转小写package com.afan;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class UDFLower extends UDF{ public Text evaluate(final Text s){ if (转载 2012-03-26 18:08:03 · 647 阅读 · 0 评论 -
hive创建表时加了中文备注comment报错
报错现象:要做的修改://修改字段注释字符集alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;//修改表注释字符集alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) charac原创 2015-08-14 18:33:47 · 13127 阅读 · 0 评论 -
hiveserver2 启动后jdbc 连接上的原因
1 首先修改 hive-site.xml hive.server2.thrift.port 10000 hive.server2.thrift.bind.host localhost 2 测试连接是否以连上不用写jdbc程序,运行 bin/beeline.sh然后输入 !connect jdbc:hive2://上面设置的ip地址:10000 hiv原创 2015-03-18 08:01:16 · 20259 阅读 · 7 评论 -
hive 配置注意事项及初始化hive 元数据
今天配置hive 犯了一个问题:下载的hive tar.gz 里的conf目录只有一个 hive-default.xml.template,于是我就cp 了一份命名为:hive-default.xml结果弄上去总是出现一个问题,就是我在 bin/ 运行hive 创建的database和在 任意其他目录运行hive 创建的database (已配置好环境变量)在两个地方出现的并不相同,这个原创 2015-03-16 21:46:04 · 27535 阅读 · 4 评论 -
利用udf函数将Hive统计结果直接插入到MySQL
转自: http://www.linuxidc.com/Linux/2013-04/82878.htm大部分利用hive做数据分析的步骤是先用hive将统计结果导出到本地文件或者Hive的其他表中,再将本地文件导入到mysql或者利用sqoop将Hive表导入到mysql中。 今天同事给推荐了一个利用udf函数直接将统计结果导入mysql的方法。 步骤为转载 2015-01-09 16:56:14 · 1028 阅读 · 0 评论 -
利用sqoop将hive数据导入导出数据到mysql
转自:http://blog.youkuaiyun.com/jiedushi/article/details/6663177运行环境 centos 5.6 hadoop hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具在使用过程中可能遇到的问题:sqoop依赖zookeep转载 2015-01-09 16:55:05 · 836 阅读 · 0 评论 -
Java 执行系统命令
转自:http://wuhongyu.iteye.com/blog/461477/通过 java.lang.Runtime 类可以方便的调用操作系统命令,或者一个可执行程序,下面的小例子我在windows和linux分别测试过,都通过。基本原理是,首先通过 Runtime.getRuntime() 返回与当前 Java 应用程序相关的运行时对象,然后调用run.exec(cmd) 另启一转载 2015-01-09 17:42:38 · 968 阅读 · 0 评论 -
Hive中ObjectInspector作用
ObjectInspector是Hive中一个咋一看比较令人困惑的概念,当初读Hive源代码时,花了很长时间才理解。 当读懂之后,发现ObjectInspector作用相当大,它解耦了数据使用和数据格式,从而提高了代码的复用程度。 简单的说,ObjectInspector接口使得Hive可以不拘泥于一种特定数据格式,使得数据流 1)在输入端和输出端切换不同的输入/输出格式 2)在不同的Oper转载 2014-08-06 21:26:41 · 3257 阅读 · 0 评论 -
Hive中ObjectInspector的作用
Serde是什么:Serde实现数据序列化和反序列化以及提供一个辅助类ObjectInspector帮助使用者访问需要序列化或者反序列化的对象。Serde层构建在数据存储和执行引擎之间,实现数据存储+中间数据存储和执行引擎的解耦。 //主要实现数据的序列化和反序列化。publicabstractclass AbstractSerDe implements SerDe转载 2014-08-06 22:21:33 · 14652 阅读 · 0 评论 -
RCFile存储格式
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据库转载 2014-08-06 11:25:03 · 3996 阅读 · 0 评论 -
ORCFile存储格式
先介绍下Orc的文件格式,截一张官方的图: 可以看到每个Orc文件由1个或多个stripe组成,每个stripe250MB大小,这个Stripe实际相当于之前的rcfile里的RowGroup概念,不过大小由4MB->250MB,这样应该能提升顺序读的吞吐率。每个Stripe里有三部分组成,分别是Index Data,Row Data,Stripe Footer:转载 2014-08-06 14:28:26 · 1971 阅读 · 0 评论 -
hive rcfile存储格式
Hive的三种文件格式:TEXTFILE、SEQUENCEFILE、RCFILE中,TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的,RCFILE是基于行列混合的思想,先按行把数据划分成N个row group,在row group中对每个列分别进行存储。另:Hive能支持自定义格式,详情见:Hive文件存储格式基于HDFS的行存储具备快速数据加载和动态负载的高适应能力,转载 2014-08-05 16:51:32 · 13963 阅读 · 1 评论 -
HIVE 动态分区与静态分区
HIVE分区,实际上是通过一个路径来标识的,而不是在物理数据中。比如每天的数据,可能分区是pt=20121023这样,那么路径中它就会变成:/hdfs/path/pt=20121023/data_files。通过路径来标识的好处是,如果我们需要取特定分区的数据,只需要把这个路径下的数据取出来就可以了,不用扫描全部的数据。HIVE默认是静态分区。但是有时候可能需要动态创建不同的分区,比如商品转载 2013-05-15 17:35:39 · 905 阅读 · 0 评论 -
hive谓词下推的失效与生效
谓词下推的生效:select * from czw_test2 ajoin (select * from czw_test1 where pt >='20121101' and pt <='20121102') bon (a.search_id = b.search_id)select count(1) from czw_test2 ajoin czw_test1 bon a.s原创 2012-12-16 17:18:54 · 4918 阅读 · 0 评论 -
hive存储格式sequencefile和rcfile的对比
源数据放在test1表中,大小 26413896039 Byte。创建sequencefile 压缩表test2,使用insert overwrite table test2 select ...语句将test1数据导入 test2 ,设置配置项:set hive.exec.compress.output=true;set mapred.output.compre转载 2012-10-24 17:04:24 · 1853 阅读 · 0 评论 -
hive文件存储格式
hive在建表时,可以通过‘STORED AS FILE_FORMAT’ 指定存储文件格式例如:> CREATE EXTERNAL TABLE MYTEST(num INT, name STRING)> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'> STORED AS TEXTFILE> LOCATION '/data/test'转载 2012-10-24 16:54:28 · 3094 阅读 · 0 评论 -
UDF 入门
最近感受了hive的udf函数的强大威力了,不仅可以使用很多已经有的udf函数,还可以自己定义符合业务场景的udf函数,下面就说一下如何写udf/udaf/udtf函数,算是一个入门介绍吧。First, you need to create a new class that extends UDF, with one or more methods named evaluate. pa转载 2012-03-26 18:15:56 · 1426 阅读 · 0 评论 -
hive创建表时ascii编码与unicode编码的对应
CREATE TABLE page_view(viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User') COMMENT 'This is the page view table' PARTITIONED原创 2017-02-20 14:49:41 · 9247 阅读 · 0 评论