
__Hive
文章平均质量分 81
冥想者-定
缘起性空
展开
-
[转载]Hive日期函数
转自大神 http://www.oratea.net/?p=944无论做什么数据,都离不开日期函数的使用。这里转载一下Hive的日期函数的使用,写的相当完整。 日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, string format]) 返回值: string说明: 转化U转载 2017-01-19 10:48:45 · 505 阅读 · 0 评论 -
hive 常用查询语句
查询不相同的androidid select count(distinct androidid) from table where dt='date ' and androidid is not null and androidid and androidid 'NULL' AND androidid '_Null' and appkey转载 2015-12-21 17:24:13 · 1937 阅读 · 0 评论 -
hive全排序优化
http://www.2cto.com/database/201307/225510.htmlhive全排序优化 全排序Hive的排序关键字是SORT BY,它有意区别于传统数据库的ORDER BY也是为了强调两者的区别–SORT BY只能在单机范围内排序。考虑以下表定义: CREATE TABLE if not exists t_order(转载 2015-09-30 14:13:41 · 803 阅读 · 0 评论 -
hive中的全排序
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出,详见hadoop简单实现全排序现在学了hive,写sql大家都很熟悉,如果一个order by解决了全排序还用那么麻烦写mapreduce函数吗?事实上,hive使用order by会默认设置reduce的个数=1,既然reducer的个数都是1了,结果自然全排序!这也违背了充分利用转载 2015-09-30 13:59:09 · 396 阅读 · 0 评论 -
hive 中的排序优化
http://blog.youkuaiyun.com/jiedushi/article/details/7651622在hive中进行字段排序统计过程中,使用ORDER BY是全局排序,hive只能通过一个reduce进行排序.效率很低,采用hive提供的distribute by +sort by或者CLUSTER BY, 这样可以充分利用hadoop资源, 在多个reduce中局部按需要排序的转载 2015-09-30 14:12:53 · 525 阅读 · 0 评论 -
HIVE 命令行
2013-01-23 22:11 5511人阅读 评论(0) 收藏 举报执行一个查询$HIVE_HOME/bin/hive -e 'select a.col from tab1 a'之后过程中,会在终端上显示mapreduce的进度,执行完毕后,最后把查询结果输出到终端上,接着hive进程退出,不会进入交互模式。 使用静音模式执行一个查询$HIVE_HOME转载 2015-06-26 21:50:44 · 448 阅读 · 0 评论 -
hive面试题目:表大概有2T左右,对表数据转换
//org.apache.hadoop.hive.ql.exec.UDFpublic class RowNumber extends org.apache.hadoop.hive.ql.exec.UDF { private static int MAX_VALUE = 50; private static String comparedColumn[] = new转载 2015-06-27 18:29:08 · 467 阅读 · 0 评论 -
HIVE 命令行
使用静音模式执行一个查询$HIVE_HOME/bin/hive -S -e 'select a.col from tab1 a'加入-S,终端上的输出不会有mapreduce的进度,执行完毕,只会把查询结果输出到终端上。这个静音模式很实用,,通过第三方程序调用,第三方程序通过hive的标准输出获取结果集。转载 2015-06-26 21:50:05 · 334 阅读 · 0 评论 -
hive面试题目:表大概有2T左右,对表数据转换--2
本帖最后由 阿飞 于 2014-4-20 14:48 编辑有一张很大的表:TRLOG该表大概有2T左右TRLOG:CREATE TABLE TRLOG(PLATFORM string,USER_ID int,CLICK_TIME string,CLICK_URL string)row format delimitedfields terminat转载 2015-06-27 18:29:36 · 724 阅读 · 0 评论 -
hive UDF 自定函数
今天有同事来问一个我写过的UDF的问题,想起之前貌似写过一篇这样的文章,草稿箱里找了下,确实有,躺了一年半了,发出来,也许对某些同学有帮助~HIVE允许用户使用UDF(user defined function)对数据进行处理。用户可以使用‘show functions’ 查看function list,可以使用'describe function function-name'查看函数转载 2015-06-27 16:52:39 · 578 阅读 · 0 评论 -
Js获取当前日期时间及其它操作
var myDate = new Date();myDate.getYear(); //获取当前年份(2位)myDate.getFullYear(); //获取完整的年份(4位,1970-????)myDate.getMonth(); //获取当前月份(0-11,0代表1月)myDate.getDate(); //获取当前日(1-31)转载 2015-03-12 17:37:29 · 318 阅读 · 0 评论 -
hive函数参考手册
原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无失败,因为无效的语法。 SQL使用”=”,不使用”==”。转载 2015-03-09 11:10:40 · 529 阅读 · 0 评论 -
SQL 分组函数 group by
SELECT * FROM as_send_media_country_day GROUP BY country_code , media_type, media_name.group by 有三个字段,分别已逗号分隔, 这相当于一个并且的意思, 也就是 一行一行的读取的时候, 必须同时满足 country_coude , med转载 2015-03-09 13:12:39 · 518 阅读 · 0 评论 -
Hive取随机数 rand()函数
取随机数函数: rand语法: rand(),rand(int seed)返回值: double说明:返回一个0到1范围内的随机数。如果指定种子seed,则会等到一个稳定的随机数序列举例:hive> select rand() from lxw_dual;0.5577432776034763hive> select rand() from lxw_dual;0.66转载 2015-03-09 11:28:27 · 101479 阅读 · 1 评论 -
Hive 连接函数 concat
. 字符串连接函数:concat语法: concat(string A, string B…)返回值: string说明:返回输入字符串连接后的结果,支持任意个输入字符串举例:hive> select concat(‘abc’,'def’,'gh’) from lxw_dual;abcdefgh转载 2015-03-09 11:28:28 · 44612 阅读 · 2 评论 -
hive 关于array的常用操作。[排序][包含]
select count(*) from xxxxxxxx > lateral view explode(pair) ids_table1 as id1 lateral view explode(pair) ids_table2 as id2 > where year=2016 and month =2 and day =23 and id2转载 2016-02-25 12:25:20 · 26028 阅读 · 0 评论 -
hive 建立表结构 ,添加分区
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types drop table appuserprofile ; CREATE EXTERNAL TABLE `appuserprofile`( `mark` string, `appkey` string, `idfa`转载 2016-04-30 09:24:03 · 1345 阅读 · 0 评论 -
Hive中的排序语法 [能理解、讲的清楚、明白]
ORDER BYhive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序,这意味着所有的数据会传送到一个Reduce任务上,这样会导致在大数量的情况下,花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下,必须指定 limit 否则执行会报错。hive> set hive.map转载 2016-06-29 16:41:54 · 594 阅读 · 0 评论 -
hive常用字符串函数
字符串长度函数:length Java代码 语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例: hive> select length(‘abcedfg’) from dual; 7 字符串反转函数:reverse J转载 2017-01-19 10:48:24 · 2006 阅读 · 0 评论 -
hive 时间相减
select case when "2017-01-18 23:59:56" > substr("2017-01-18 23:59:55.511" ,1,19) then unix_timestamp("2017-01-19 00:00:00") - unix_timestamp(substr("2017-01-18 23:59:55.511" ,1,1转载 2017-01-19 10:47:55 · 34147 阅读 · 0 评论 -
hive 查询表中的数据来源hdfs 位置
1\Hive中查看数据来源文件和具体位置方法select id, dt ,xxx ,INPUT__FILE__NAME,BLOCK__OFFSET__INSIDE__FILEfrom data_mp_raw.xxxxxx where dt='20161127' and log_type=xxxand hour='18' limit 30;原创 2017-01-16 10:30:42 · 2970 阅读 · 0 评论 -
Hive中查看数据来源文件和具体位置方法
通常用户在HIVE中用SELECT语句出来结果,无法确定结果是来自哪个文件或者具体位置信息,HIVE中考虑到了这点,在Virtual Column虚列中可以指定三个静态列: 1. INPUT__FILE__NAME map任务读入File的全路径 2. BLOCK__OFFSET__INSIDE__FILE 如果是RCFile或者是SequenceFile块压缩格式文件则显示B转载 2016-12-13 15:41:32 · 4691 阅读 · 0 评论 -
hive 设置队列
set mapreduce.job.queuename=queue1转载 2016-11-01 09:09:32 · 13147 阅读 · 0 评论 -
hive PURGE关键字
DROPTABLE [IFEXISTS] table_name [PURGE];注:指定PURGE后,数据不会放到回收箱,会直接删除。转载 2016-10-31 12:00:57 · 3616 阅读 · 0 评论 -
hivebiao
CREATE EXTERNAL TABLE `core_business_preview.operation_enterprise_active_daily`( `row_ky` string, `action_date` string, `agentName` string, `appstarttime` string,转载 2016-09-06 03:49:57 · 392 阅读 · 0 评论 -
hbase 映射hive表
CREATE EXTERNAL TABLE `core_business_preview.operation_enterprise_active_daily`( `action_date` string, `enterprise_id` string, `enterprise_account` string, `industry` string,转载 2016-09-05 09:31:39 · 1914 阅读 · 0 评论 -
hive partition ||| hive分区
partition是hive提供的一种机制:用户通过指定一个或多个partition key,决定数据存放方式,进而优化数据的查询一个表可以指定多个partition key,每个partition在hive中以文件夹的形式存在。实例(static partition):编辑文件:/home/work/data/test3.txt; /home/work/data/test4.tx转载 2015-06-29 11:19:33 · 484 阅读 · 0 评论 -
Hive 查询优化总结
一、join优化Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个ma转载 2015-06-29 12:56:45 · 493 阅读 · 0 评论 -
Hive教程 http://www.yiibai.com/hive/
http://www.yiibai.com/hive/ 可以参考转载 2015-06-29 13:25:46 · 624 阅读 · 0 评论 -
Hive配置项的含义详解(5)
关于MetaStore:metastore是个独立的关系数据库,用来持久化schema和系统元数据。hive.metastore.local:控制hive是否连接一个远程metastore服务器还是开启一个本地客户端jvm,默认是true,Hive0.10已经取消了该配置项;javax.jdo.option.ConnectionURL:JDBC连接字符串,默认jdbc:derby:转载 2015-06-29 13:44:36 · 767 阅读 · 0 评论 -
hive
select count(distinct idfa+mac+imei+androidid) from appuserprofile ; concat(nvl(idfa, ''), nvl(mac, ''), nvl(imei, ''), nvl(android_id, '')) select concat(nvl(idfa, ''), nvl(m转载 2015-12-28 09:46:32 · 343 阅读 · 0 评论 -
Hive分析函数row_number() 【分组topk】
摘要本文根据实际业务需求展示了Hive分析函数row_number()的用法。http://my.oschina.net/jackieyeah/blog/681274业务背景最近有一个需求是给用户浏览的商品进行评分, 然后将商品评分按降序排序, 最后取 Top 50 推荐给终端用户。评分的计算公式为: 该商品一个月内的购买次数 / 该商品两个月内的浏览次数。转载 2016-06-29 17:27:27 · 979 阅读 · 0 评论 -
hive 中转义符使用问题
在写hive查询的时候,如果遇到特殊字符需要使用一些转义符进行转义,如:hive>select split(ip,’\&’) from students;通过转义,hive能识别&,并按&进行分割。但现实中使用会有一些问题,如hive>select split(ip,’\.’) from students;该语句无法安装’.'来分割ip。经过仔细研究发现需要写成如下格式:h转载 2015-03-09 11:13:56 · 2868 阅读 · 0 评论 -
Hive 日期函数 weekofyear
12. 日期转周函数:weekofyear语法: weekofyear (string date)返回值: int说明:返回日期在当前的周数。举例:hive> select weekofyear('2011-12-08 10:03:01') from lxw_dual;49转载 2015-03-09 16:52:37 · 19868 阅读 · 0 评论 -
17、增加、修改列以及表属性修改操作讲解
添加列alert table test5 add colums (addclo string);修改表的属性alter table table_nae set TBLPROPERTIES ('EXTERNAL'='true')//内部表转外部表alter table table_name set tblproperties('external'='fals转载 2015-02-07 15:51:37 · 585 阅读 · 0 评论 -
第38天 UDAF函数
第38天: UDAF函数内置的聚合函数(UDAF)count(*)sum(distinct col)avgminmaxvar-popvar_sampstddev_popstddev_samp转载 2015-02-08 18:59:35 · 418 阅读 · 0 评论 -
第27天: lateral View语法
Hive学习实战 --------------------------------------------------------------Hive从入门到实战【40讲】---笔记记录-------------------------------------------------------------- hive命令1、show tables;2、show d转载 2015-02-08 14:46:53 · 828 阅读 · 0 评论 -
第16天: 增加分区、删除分析、加载数据到指定分区讲解和案例操作
Hive学习实战 --------------------------------------------------------------Hive从入门到实战【40讲】---笔记记录-------------------------------------------------------------- hive命令1、show tables;2、show d转载 2015-02-07 15:24:21 · 879 阅读 · 0 评论 -
第36天 条件函数
ifeslecasewhile转载 2015-02-08 18:50:38 · 345 阅读 · 0 评论 -
第33天 逻辑运算符, 复杂类型使用
map[key]array[i]struct.x转载 2015-02-08 18:47:49 · 378 阅读 · 0 评论