
hive
hive相关的问题
早点起床晒太阳
我其实不大懂,我只是官网的搬运工。
展开
-
hive合并小文件
参考资料:https://blog.youkuaiyun.com/lalaguozhe/article/details/9053645我们这边改为底层数据改成hive的parquet表,需要我们这边弄下优化小文件相关,特意总结下最终参数SET parquet.compression = snappy; //设置压缩 专门针对于stored as parquet的情况set hive.merge.mapfiles=true; //map-only 时合并set hive.merge.m.原创 2020-12-09 21:08:44 · 485 阅读 · 0 评论 -
hive 分区命令以及使用场景
常用的分区命令建立分区表 (demo)CREATE EXTERNAL TABLE partition_test(id int,name string)PARTITIONED BY (date string,hour int)row format delimited fields terminated by ‘,’location ‘/xunlian/zgh/partition_test’添加分区1、手动ALTER TABLE partition_test ADD PARTITION (原创 2020-11-15 15:36:33 · 509 阅读 · 0 评论 -
linux中的快捷操作(shell中和控制台)
linux的控制台和shell中的快捷操作是不一样的1、控制台的操作(除了在shell中编辑的操作)ctrl + a 回到行首ctrl + e 回到行尾ctrl + u 删除到行首ctrl + k 删除到行尾ctrl + d 删除当前光标下的数据ctrl + y 恢复上次的操作ctrl + z 把当前进程转到后台运行,使用’ fg ‘命令恢复。比如top -d1 然后ctrl+z ,到后台,然后fg,重新恢复ctrl + S 暂停屏幕输出ctrl + Q 继续屏幕输出原创 2020-09-04 19:41:20 · 170 阅读 · 0 评论 -
Jdbc访问hive
JDBC访问注意点如果JDBC代码访问出现问题,解决问题的办法(我们在不同环境出现了不少问题,发现匪夷所思的问题大部分都是版本导致的)1、校验JDBC URL是否可以使用,在服务器上使用beeline连接这个URL看看是否可以连接的上2、如果JDBC URL没有问题,那么检查代码中的JDBC的版本(如果是pom文件的话 是hive-jdbc)和服务器hive的版本是否对应的上。如果对应不上,修改下版本使其和服务器一致1、hiveserver、hiveserver2 的区别两者都允许远程客户端使用多原创 2020-06-20 16:55:18 · 2625 阅读 · 0 评论 -
hive UDF注册以及编写
背景公司有个业务需求,需要对一些算子进行实现,写UDF,刚开始打算用sql 实现,但是考虑到算子可能嵌套等复杂情况,遂用udf 去做。UDF编写1、UDF数据类型这里先讲一下UDF的数据类型,刚开始我写UDF的时候使用java 中的bigDecimal 等数据类型发现是不行的。然后我开始找hive 相关的数据类型。发现网上写的也少,然后我在想hive内置的函数为什么支持decimal,long的数据类型呢。我就在github中的hive的源码里全局查找hive的内置函数,为了方便查找,我找了个复杂一原创 2020-05-09 15:04:17 · 1216 阅读 · 0 评论 -
hive的serde解析与应用
今天把serde讲解和相关应用整理一下,参考文档如下参考的官方文档:https://cwiki.apache.org/confluence/display/Hive/DeveloperGuide#DeveloperGuide-HiveSerDehttps://cwiki.apache.org/confluence/display/Hive/SerDe1、serde概述SerDe是Se...原创 2020-04-17 14:52:31 · 2103 阅读 · 0 评论 -
hiveserver2 的HA 配置
1、作用如果只是使用一台服务来启动hiveserver2,那么如果hiveserver2挂掉便不能提供jdbc的支持。hive 支持hiveserver2 HA,用于进行负载均衡和高可用Hive从0.14开始,使用Zookeeper实现了HiveServer2的HA功能,Client端可以通过指定一个nameSpace来连接HiveServer2,而不是指定某一个host和port。2、具...原创 2020-04-16 11:06:23 · 954 阅读 · 0 评论 -
hive JDBC的url的不同写法
老是和这块东西接触,今天看看官网并结合自己理解总结下这一块官网地址:https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients#HiveServer2Clients-JDBCurl的写法1、url中参数的拼接jdbc:hive2://:/dbName;initFile=;sess_var_list?hive_...原创 2020-04-15 20:42:06 · 6366 阅读 · 1 评论 -
hive 统计分析相关ANALYZE
1.前言本文大部分是对于官方问的那个的理解,小部分是自己的测试感受官方文档地址https://cwiki.apache.org/confluence/display/Hive/StatsDevANALYZE 这个命令接触的不多,今天专门研究学习下2、目的见名知意,它的目的就是为了统计和分析的作用,它将统计的信息存储到metastore中,后续再来查询的时候就不需要在执行查询计算,而...原创 2020-04-09 16:14:49 · 1254 阅读 · 0 评论 -
hive metastore解析
背景以上所有内容,均搬自官方文档,还有一部分是自己在实际经验中的总结。官方文档相关已经非常详细,也希望大家能养成看官方文档的好习惯。说明hive metastore 是什么呢?它是一个服务端,简称server。有什么作用呢?作用是建立起和hive客户端的连接,当客户端来请求,server去远程metastore数据库查询信息返回hive metastore的模式hive ...原创 2020-03-17 20:16:10 · 1204 阅读 · 0 评论 -
hive 查看表的详细信息
背景目前有个需求,就是让生成表以后,查看当前数据库,以及表的路径,之前查看表一直是用show create table tableName这种方式去查看的,直接查询可以,但是放到java访问的方式来有诸多的不变。他是一个连续的字符串,如果你想查询还需要用正则匹配想要的信息,非常的不方便,而且效率也低。解决发现使用desc formatted tableName是更好的选择,里...原创 2020-03-16 17:29:37 · 8041 阅读 · 3 评论