
数据库及HIVE
szdbl
学习是一生的事情,好奇心是出发点
展开
-
SQL Server 存储过程
Transact-SQL中的存储过程,非常类似于Java语言中的方法,它可以重复调用。当存储过程执行一次后,可以将语句缓存中,这样下次执行的时候直接使用缓存中的语句。这样就可以提高存储过程的性能。Ø 存储过程的概念 存储过程Procedure是一组为了完成特定功能的SQL语句集合,经编译后存储在数据库中,用户通过指定存储过程的名称并给出参数来执行。 存储过程中可以包含逻辑控原创 2015-09-18 15:47:46 · 343 阅读 · 0 评论 -
Hive MapReduce脚本
Hive查询排序和聚集转自http://blog.youkuaiyun.com/zythy/article/details/18814781通过Hive提供的orderby子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的,要生成这种整体有序的结果,就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最终结果整体有序,你就转载 2015-09-18 15:48:04 · 907 阅读 · 0 评论 -
hive array、map、stru…
转载自:http://www.cnblogs.com/end/archive/2013/01/17/2863884.htmlhive提供了复合数据类型:Structs: structs内部的数据可以通过DOT(.)来存取,例如,表中一列c的类型为STRUCT{a INT; bINT},我们可以通过c.a来访问域aMaps(K-V对):访问指定域可以通过["指定域名称"]进行,例如,一个M转载 2015-09-18 15:47:20 · 463 阅读 · 0 评论 -
HIVE 中 multi_distinct的注意事项
前hive的版本支持multi-distinct的特性,这个在用起来比较方便,但是在此特性下面无法开启防数据倾斜的开关(sethive.groupby.skewindata=true),防止数据倾斜的参数只在单distinct情况下会通过一个job来防止数据的倾斜。multi-distinct使用起来方便的同时也可能会带来性能的不优化,如日志中常常统计pv,Uv,独立ip数,独立session数原创 2015-09-18 15:48:09 · 615 阅读 · 0 评论 -
Hive几种数据导出方式
转自:http://www.iteblog.com/archives/955http://blog.youkuaiyun.com/xiao_jun_0820/article/details/32328755谈到了Hive中几种数据的导入方式,不同的数据导入方式用途不一样。今天我们再谈谈Hive中的几种不同的数据导出方式。可以根据导出的地方不一样,将这些方式分为三种:(1)、导出到本地文件系统;(2)原创 2015-09-18 15:47:39 · 857 阅读 · 0 评论 -
hive常用函数 两层json格式解析
转自http://blackproof.iteye.com/blog/2108353字符串函数字符串长度函数:length Java代码 两层json格式解析" />语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例: hive> select length(‘abcedfg’) from dual;原创 2015-09-18 15:48:14 · 6282 阅读 · 0 评论 -
HIVE 自定义函数
转自:http://blog.youkuaiyun.com/zythy/article/details/18818559当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-definedfunction)。Hive目前只支持用java语言书写自定义函数。如果需要采用其他语言,比如Python,可以考虑上一节提到的transform语法来实现。H转载 2015-09-18 15:48:07 · 389 阅读 · 0 评论 -
HIVE 加jar包
use tmp_htldb;--加载UDF函数drop resources zlp_udf.jar;drop function GPSDistance;add jar hdfs://ns//user/xxx/user/zlp/udf/zlp_udf.jar; create temporary function GPSDistance as'com.baidu.bi.udf.GPSDi原创 2015-09-18 15:48:02 · 850 阅读 · 0 评论 -
[转载]hive的查询注意事项以及优…
hive的查询注意事项以及优化总结.Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select原创 2015-09-18 15:47:56 · 397 阅读 · 0 评论 -
hive大数据倾斜总结
hive大数据倾斜总结在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的redu转载 2015-09-18 15:47:54 · 464 阅读 · 0 评论 -
ive lateral view…
原文地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView#lateral view用于和split,explode等UDTF一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。一个简单的例子,假设我们有一张表pageAds,它有两列数据,第一列是pagei转载 2015-09-18 15:48:17 · 805 阅读 · 0 评论