
Hadoop&hive
文章平均质量分 60
duqi
这个作者很懒,什么都没留下…
展开
-
#hive# python利用thrift连接hive
Thrift是一个跨语言服务部署框架,最初由Facebook于2007年开发,后于2008年进入Apache孵化器(Apache Incubator)。类似于SOAP,COM 和CORBA,Thrift通过定义一个中间定义语言和Thrift代码生成工具,生成指定语言的代码。目前,Thrift支持C++,Java, Python, PHP, Ruby, Erlang, Perl, Haske转载 2013-11-02 23:29:09 · 1320 阅读 · 0 评论 -
#Hive#Mapjoin的使用
转载自:http://blog.linezing.com/2011/06/hive%E4%B8%ADmapjoin%E5%8F%AF%E4%BB%A5%E4%BD%BF%E7%94%A8%E7%9A%84%E5%9C%BA%E6%99%AF%E5%88%86%E6%9E%90最近开发中遇到几种应用,刚好使用MAPJOIN来解决实际的问题。应用共同点如下:1: 有一个极小的表转载 2013-08-06 17:30:12 · 758 阅读 · 0 评论 -
#hive_正则表达式#JAVA的正则表达式案例详解
如果你曾经用过Perl或任何其他内建正则表达式支持的语言,你一定知道用正则表达式处理文本和匹配模式是多么简单。如果你不熟悉这个术语,那么“正则表达式”(Regular Expression)就是一个字符构成的串,它定义了一个用来搜索匹配字符串的模式。许多语言,包括Perl、PHP、Python、JavaScript和JScript,都支持用正则表达式处理文本,一些文本编辑器用正则表转载 2013-04-09 13:40:00 · 6722 阅读 · 1 评论 -
#HIve#IDE中常用函数的记录
IDE比较好用的函数推荐:1)打标函数:row_number,可以为变量打标进行标记;常用场景:在几等分时用到;使用方法:CREATE TEMPORARY FUNCTION row_number AS 'com.taobao.ad.data.search.udf.UDFrow_number';可以有一个或多个参数 row_number(col …) 使用,举例:下面是取原创 2013-03-22 14:32:56 · 1298 阅读 · 0 评论 -
#Hive#Hive的一点认识
Hive的一点认识Author:杜七Date:2013.3.211,什么是Hive关于Hive,随便google,都能找到很多,比如看这里.其实,如果你对数据库有过了解,也找到一点SQL,那完全可以简单的把它当数据库,然后可以通过SQL语言来查询数据,就可以了,只不过它是部署在HADOOP上的外层的一个“查询接口”罢了。2,怎么来用Hive既然可以把它当数据库,可以原创 2013-03-21 23:37:12 · 1079 阅读 · 0 评论 -
#hive#hive中的union all
hive 中,不支持顶层的UNION ALL的查询,因此,如果想用union all,不能像下面这样:select * from rz_nv2 union all select * from rz_nv1;这样是不可以的,会报错。需要建一个子查询,然后 用别名标注,比如:select *from (select *原创 2013-02-01 16:33:55 · 1125 阅读 · 0 评论 -
#hive#hive中的Distinct,group by
Select一些数据时候,会做一些去重处理,比如通过distinct 和group by来去重。(1)distinctdistinct,在数据量不大的情况下,我都会用,主要自己懒的写group by xxx这么多的字段,额。当数据量太大时候,特别是count(distinct A)的时候,处理的速度会比较慢。另,distinct和Group by一样,区别不大。(2)group原创 2013-02-01 17:09:39 · 14806 阅读 · 0 评论 -
#HIVE#hive函数参考手册
原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无失败,因为无效的语法。 SQL使用”=”,不使用”==”。转载 2013-02-01 10:11:25 · 940 阅读 · 0 评论 -
#HIVE#Row_number的使用
(1)函数说明:ROW_NUMBER():这个函数,使用Hive中的distribute by user_id按照相同的keyword分发到相同的reduce中,然后对某个keyword进行降序排列,对每个记录附上编号。根据编号的不同,可以进行一些选择。(2)应用:a>首先要加载这个包:add jar /home/shaojie/taobao_udf-0.1.jar原创 2013-01-29 14:13:21 · 2548 阅读 · 0 评论 -
#Hadoop#FS SHELL命令介绍
FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认schem转载 2013-01-06 17:29:31 · 557 阅读 · 0 评论 -
#hive#分时段统计消耗
有个需求,是要一天每半个小时,统计一次消耗累计,共48个数据点。刚开始,想把全天数据拉出来,然后脚本搞定。最后,灵感一来,通过一个取巧的办法,可以简单的统计,不用脚本,如下:drop table t_1213_dq_tmp4;create table t_1213_dq_tmp4 as select a.hour,case when a.minutefrom(selec原创 2012-12-13 17:59:53 · 3901 阅读 · 0 评论 -
#hive#HIVE中使用python实现UDF
HIVE中使用python实现UDFHIVE,FACEBOOK的一个开源项目,利用类SQL的语句(HiveQL)来加快一般的MapReduce的开发过程。UDF,user defined function, 因为HIVE毕竟不是一般的关系型数据库,支持的HQL有限,如果要实现复杂的功能,就要通过自己定义函数来帮助实现。HIVE应该利用PIPE的原理,将自己查询的结果放到转载 2013-11-02 23:19:52 · 16293 阅读 · 1 评论