
Hive
javartisan
年轻人,静下心来做事吧!
展开
-
Hive扫盲之Lateral View之列为空时候该行元素消失
采坑:当lateral view explode(arr) 时候,如果arr为一个空集合则会导致行元素丢失,因此需要进行特出处理其实也不算坑吧,怪自己不了解而已。有时间完善下面文档阅读笔记。https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView...原创 2020-03-06 13:45:38 · 657 阅读 · 0 评论 -
Grouping__ID 在不同版本中的使用方法不一样
GROUPING SETS clauseGrouping__ID function Grouping__ID function (before Hive 2.3.0)Hive2.3版本之后Grouping__ID functionWhen aggregates are displayed for a column its value is null. This may confli...原创 2020-02-14 11:31:26 · 1616 阅读 · 0 评论 -
灵活多变的SQL-Where后面的case when
今天一个需要,想着是否可以where 后面使用case when ,测试一下果然可以,强大的SQL没有解决不了的难题。select login_tm, dtfrom adm.user_login_tabwhere case when 1 != 1 then dt = '2019-11-13' else dt < '2019-10-28' end limit 50 ;...原创 2019-11-15 18:17:09 · 874 阅读 · 0 评论 -
Spark SQL有关broadcast join的不生效问题
大数据计算通常会存在大表join小表的情况,如果相对较小的表允许广播到各个executor的话,可以使用广播方式mapjoin,这样还可以避免数据倾斜。平时看文档记着有个参数是:spark.sql.autoBroadcastJoinThreshold 10485760 (10 MB) Configures the maximum size in bytes for a tabl...原创 2019-05-20 22:02:11 · 5265 阅读 · 1 评论 -
Hive之UDF定义与使用
import org.apache.hadoop.hive.ql.exec.UDF;import java.util.Map;public class MeidiNoiseUdf extends UDF { public String evaluate(String str) { try { Map<String, St...原创 2018-09-04 14:18:42 · 442 阅读 · 0 评论 -
hive根据现有数据表创建分区表,进行动态或静态分区插入数据
1:现有数据表结构定义:CREATE TABLE `tab_user`( `name` string, `age` int, `sex` string, `addr` string)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' STORED AS INPUTF...原创 2018-08-10 19:37:37 · 15235 阅读 · 7 评论 -
Hive中运行Java脚本进行查询数据的二次处理
网上有很多在hive中运行python脚本的示例,但是对于一个coder来说,不要让语言成为限制你的因此,个人因为所有python能做的事情java也一样可以做,因此就尝试在hive中运行java脚本。其实只要了解了其中原理,任何一门语言都可以作为hive的脚本语言,在hive中运行脚本其实就是将select查询出来的结果重定向到脚本中,然后在脚本中对输入数据进行处理即可。大体步骤如下: ...原创 2018-08-09 13:54:18 · 653 阅读 · 0 评论 -
hive中的hiveconf与hivevar区别以及其作用域
待补充原创 2018-06-27 00:03:06 · 21062 阅读 · 1 评论 -
Hive入门之WordCount
一心只想做大数据开发的低端中级玩家都会觉着觉着写Hive SQL很无趣,对开发设计的提升不是很有利,但是真正在企业中实践的话往往会改变一些看法。因此导致现在写一篇关于Hive的WordCount文章虽然自己都会感觉自己很Low,但是当真正意识中一些事情重要的时候还是要低下头去做才是正确的选择。以上这些就是想系统学习Hive的原因,虽然自己不是一个Hive入门选手,但是还是想系统从入门...原创 2018-06-24 00:27:19 · 339 阅读 · 0 评论 -
Hive On Spark 安装成功之后的总结
博文写的有些乱,进行一下总结吧!首先,之前凭借自己的错觉以为使用官网提供好的安装包之后就可以,后来各种实验各种问题。最后下决心进行自己编译源码进行安装。经过两天的摸索最终还是成功了!!功夫还是不负有心人的,以后要多多有耐心,细心做事。接下来言归正传,正如hive官网说的hive on spark,hive的版本要without hadoop,所以需要自行编译spark。此处没有想象原创 2017-02-28 19:16:28 · 1792 阅读 · 0 评论 -
Hive关于内部表外部表以及分区表数据删除总结
1 内部表 创建内部表语句:create table dog(name string,id int) rowformat delimited fields terminated by " "; a:本地加载数据 拷贝本地数据到/user/hive/warehouse/的对应目录下,所谓的对应是指对应的数据库的对应表目录下。本地数据不会删除。如果重复执行加载同一个数据原创 2017-03-27 21:12:35 · 32623 阅读 · 4 评论 -
Zeppelin安装成功后,安装Hive之后启动Zeppelin异常
Zeppelin安装参见:http://blog.youkuaiyun.com/dax1n/article/details/57079534异常信如下: WARN [2017-03-01 19:27:25,416] ({pool-2-thread-2} Hive.java[]:168) - Failed to access metastore. This class should not ac原创 2017-02-28 19:44:10 · 3141 阅读 · 0 评论 -
搭建Hive on Spark 遇见的问题File /home/daxin/bigdata/hive/scripts/metastore/upgrade/MySQL/upgrade.order.MyS
在运行./schematool -dbType MySQL -initSchema 报错如下:File /home/daxin/bigdata/hive/scripts/metastore/upgrade/MySQL/upgrade.order.MySQLnot found 很蒙圈。去看文件也在,就是大小有区别,后来./schematool -dbType mysql -initSch原创 2017-02-28 18:32:11 · 2509 阅读 · 3 评论 -
搭建Hive On Spark 编译Hive源码错误解决方法(spark2.1.0,hadoop2.7.2)
Hive On Spark 的搭建需要自行编译Spark 源码 without Hive 然后部署。编译成功之后部署Spark集群,此处不描述如何部署集群了。然后本人自行从Hive官网下载Hive2.1.1安装包进行安装,之后启动运行Hive发现出现Class不兼容异常,经过Google得知版本冲突,导致自行编译Hive源码。本人第一次是在archive.apache.o原创 2017-02-28 14:24:24 · 2884 阅读 · 0 评论 -
HIve On Spark 安装, Mysql配置,执行引擎设置
配置文件下载:链接:http://pan.baidu.com/s/1gfxFgMB 密码:3jvj数据库设置参考:http://www.cnblogs.com/easyzikai/archive/2012/06/17/2552357.html原创 2017-02-23 22:06:47 · 2105 阅读 · 0 评论